Está en la página 1de 33

Inferencia Estadística.

Guía 1: Elementos de Inferencia Estadística en Econometría.


Universidad Externado de Colombia
Especialización en Econometría

Juan Camilo Mora García


C.C. 1032474508
Samuel Andrés Coronado Cobos
C.C. 1.102.850.366

1.1 Investor’s Business Daily

Definición variable a utilizar:


De acuerdo con el portal avatrade.es, el indicador Relative Price Strength es una relación entre las
variaciones al alza y las variaciones a la baja (en periodos diarios) de una acción. El indicador va de 0 a 100,
tiende a 0 en la medida que predominan los cierres diarios a la baja y tiende a 100 en la medida que
predominan los cierres al alza.

De acuerdo con el portal exto.com, el indicador EPS o Earning per Share es una relación entre la utilidad
neta de las compañías y el número de acciones en circulación. Es decir, un índice que mide de 0 a 100 la
rentabilidad individual de una acción.

Se podría decir en pocas palabras que el RPS es un indicador del comportamiento de la acción en el
mercado, mientras que el EPS es un indicador de la rentabilidad de la acción.

Vamos a trabajar con el EPS, porque consideramos que este indicador está más ligado al comportamiento
de la empresa que al comportamiento del mercado y por lo tanto depende menos de la volatilidad del
mercado, se pueden llegar a conclusiones más robustas y más de largo plazo que si se usa el RPS.

EPS:
Vamos a proponer de forma arbitraria un rango de interpretación Interpretación Rango EPS
para la variable EPS, tal como se muestra en la Ilustración 1. Muy Bueno Entre 76 y 100
Bueno Entre 51 y 75
Teniendo en cuenta que EPS es un indicador que se puede tomar
Regular Entre 26 y 50
como una calificación de 1 a 100 de la rentabilidad de la empresa,
Malo Entre 1 y 25
estoy tomando todas las calificaciones posibles y segmentándolas en
Ilustración 1: Interpretación EPS
cuatro grupos de igual tamaño.
Seguramente esta calificación no coincida con los criterios de los
analistas de inversión, pero facilitará el análisis de la variable.
a.) Determinar las distintas medidas de tendencia central: media, mediana, media armónica y media
geométrica. En este ítem, quizás sea oportuno diseñar una función en R que conjugue las
medidas de centralidad para un mismo vector numérico que se cataloga como input.

La mitad de las calificaciones se


encuentra por encima de 71 , según
nuestro rango de interpretación
propuesto, la mayoría de las empresas se encuentra en el nivel de Bueno, lo que quiere decir que
la rentabilidad por acción en las empresas es bastante alta por eso cotizan en la bolsa de valores
de Nueva York una de las bolsas de valores mas importantes del mundo lo que le permite atraer
nuevos inversores.

La Media Armónica es la medida más


Ilustración 2: Medidas de Tendencia Central de la Variable EPS
baja puesto que asigna un peso mayor
a las observaciones más cercanas a cero
(cuyo inverso multiplicativo es más grande).

b.) Determine los cuartiles Q1, Q2 y Q3 y utilícelos para diseñar un Box–plot asociado. De acuerdo a
la ilustración de tal Box–plot ¿sobre cuál intervalo se encuentra el 50 % de la muestra?

Ilustración 3: Cuartiles de la
variable EPS

Las 18 empresas mejor


posicionadas tienen un indicador
EPS entre 71 y 100, mientras que
las 18 empresas de la “mitad
inferior” de la muestra tienen un
EPS entre 0 y 71.

El primer cuartil contiene casi la


totalidad de las empresas que en
Ilustración 4: Box Plot EPS nuestra propuesta de calificación
denominamos “Regular” y “Malo”

c.) Las realizaciones de las distintas medidas de dispersión; Rango, varianza muestral, desviación
típica muestral y por supuesto el MAD.

En este punto podemos afirmar que la variable EPS


para las 36 empresas está agrupada dentro del
intervalo que denominamos “bueno” en la
interpretación del indicador. Ilustración 5: Medidas de dispersión EPS
d.) En el histograma asociada a la variable cuantitativa de interés. Dé a conocer la posición de los
cuartiles Q1, Q2 y Q3.

El cuarto cuartil, es decir el 25%


superior de la muestra, está
compuesto en su totalidad por
empresas que calificamos como
“Muy Bueno”

Asimismo, el tercer cuartil está


compuesto por empresas que
tienen un EPS superior a 70.

Ilustración 6: Histograma EPS

e.) De acuerdo a los dos ítems anteriores. Diseñe un gráfico en donde de manera simultánea se
ilustra el histograma da la variable cuantitativa de interés y en la parte inferior de tal gráfico un
Box–plot de la misma variable dispuesto de manera horizontal. Por supuesto, se mantenga
paridad en los ejes de medidas para ambos gráficos.

Las ilustraciones 6 y 7 nos


muestran que hay dos
“centros de masa”.

Podríamos adelantarnos
a proponer que hay dos
grupos de empresas un
grupo de empresas de
“alta rentabilidad” con
un EPS promedio de 80 y
un grupo de empresas de
“baja rentabilidad” con
un EPS promedio de 20.

El grupo de empresas de
“alta rentabilidad” es
más numeroso,
predomina sobre el de
Ilustración 7: Histograma/Boxplot EPS
baja rentabilidad.
f.) ¿Cuáles estadísticos de asimetría consideraría oportuno aplicar para describir la forma del
histograma del inciso anterior?
Calculé los estadísticos de asimetría propuestos en clase,
es decir Pearson, Fisher y Yule-Bowley.
De manera consistente, los estadísticos de asimetría Ilustración 8: Estadísticos de asimetría
arrojaron valores negativos, lo que indica un sesgo
negativo o sesgo a la derecha de la variable EPS.
Esto concuerda con las conclusiones de los ítems anteriores.

g.) Es posible asumir que los datos de la muestra aleatoria son homogéneos entre sí, ¿qué
estadístico es oportuno para evaluar tal característica?
EL Coeficiente de Variación de Pearson, el cual es
del 42,3% lo que indica alta variabilidad en los datos
ya que los datos en la muestra son heterogeneos.

h.) En vista de que las variables Fuerza relativa del grupo de industria y Ventas/margen/ROE son
variables categóricas, ¿cómo las utilizaría dentro de su análisis para validar sus resultados de
acuerdo a la variable que selecciono para su estudio estadístico? Dé a conocer su iniciativa a
partir algoritmos diseñados en R que ilustren su punto de vista.

En primer lugar, la variable categórica que


más relación debería tener con el indicador
EPS es “Sales, Margins, ROE” puesto que es
una evaluación de indicadores, dos de ellos
relacionados con la rentabilidad de la
empresa.

El indicador “Relative Strenght” debería


estar menos correlacionado con el EPS
porque está más ligado a las dinámicas del
mercado, las cuales ocasionalmente se
pueden alejar de los indicadores
“fundamentales” del rendimiento de la
empresa.

De acuerdo con lo anterior, al construir el


Barplot de ambas variables categóricas con
respecto a la media de la variable EPS,
podemos ver (con algunas salvedades) la
relación esperada con “Sales, Margins,
ROE”.

Las empresas con calificaciones (B,C) Ilustración 9 Barplot de variables categóricas


tienen un EPS significativamente mayor "Sales,Margins,ROE" y "Relative Strength" con respecto a la
variable EPS
que las empresas con calificaciones (D,E) y
a su vez las empresas calificadas en A tienen un EPS mayor que las calificadas en (B,C), lo que no
se podría explicar hasta este punto es por qué los pares (B,C) y (D,E) presentan medias tan
similares.
1.2 Estudio de las acciones Standard & Poor’s

De acuerdo al planteamiento
del ejercicio, la muestra de 25
empresas cuenta con las
siguientes variables:

-Bolsa de valores
-Ticker
-Posición en BusinessWeek.
-Precio por acción
-Ganancia por acción.

La primera aproximación que


propondré para el análisis
estadístico es la comparación
de las variables Precio y la
variable Posición en Business
Week (que llamaré
“Ranking”), tal como se
muestra en la ilustración 10.
Ilustración 10: Gráfico de dispersión que relaciona el ranking con el precio de la acción

A partir de la observación de la gráfica de dispersión


podemos ver que las empresas que están posicionadas en
los primeros puestos del ranking tienden a tener precios
más elevados con un máximo cercano a los $90 dólares, así
mismo, las empresas que están en los últimos puestos del
ranking1 tienen da tener precios más bajos con un mínimo
en $15.

A partir del histograma de la variable Ranking, podemos ver


que la muestra tiene una concentración de empresas
rankeadas en los puestos (300-400) tanto en la bolsa de NY
como en Nasdaq (pero especialmente en NY).

Esto indica que la muestra tiene un sesgo al presentar una


mayor cantidad de empresas “mal posicionadas” y puede
implicar que las características de estas empresas
predominen al momento de sacar estadísticas generales.

Ilustración 11: Histograma de Ranking en la


muestra S&P

1
La empresa con la posición más baja de la muestra está ubicada en el 412, pero el ranking total va hasta 500.
Al analizar el histograma de la
variable precio, encontramos
que la media general del precio
de las acciones en la muestra
es de 47,72 y que las medias de
los precios de empresas en las
bolsas de Nueva York y de
Nasdaq son muy cercanas a la
media general.

Sin embargo, encontramos


diferencias importantes en las
distribuciones de los precios.
En NY el precio presenta una
distribución acumulada a la
izquierda, es decir se evidencia
una mayor concentración de
empresas con cotizaciones
bajas (entre $20 y $40 dólares)
Ilustración 12: Histograma de la variable Precio y la densidad va disminuyendo
a medida que el precio va
aumentando. En el caso de Nasdaq, se evidencia una distribución un poco más simétrica alrededor de la
media.

Una variable que puede ser de gran interés para los


inversionistas es la ganancia por acción, que en esta
base está medida en dólares.
La propuesta en este punto es transformar la
variable de “ganancias por acción” en la variable
“rentabilidad” que es igual a la ganancia por acción
sobre el precio de la acción.
Considero que con esta transformación podemos
hacer una comparación más objetiva entre una
empresa y otra.

Lo que evidenciamos al construir los histogramas de


la variable Rentabilidad, es aquí si hay una diferencia
significativa entre las medias de las dos bolsas de
valores. La rentabilidad media general es del 5%,
pero las acciones de la bolsa de Nueva York
presentan una rentabilidad del 5,6% mientras que las
del Nasdaq presentan una rentabilidad media del 4%.

Asimismo, podemos observar que la distribución de


las rentabilidades del Nasdaq es más “uniforme” es
decir la rentabilidad va del 0& al 8% con números
similares de empresas para los distintos niveles,
mientras que la en NY la distribución tiene forma de Ilustración 13: Histograma de la variable Rentabilidad
campana alrededor de la media.
1.3 Salario de docentes en EEUU

a.) Diseñe una tabla de frecuencia agrupada que permita conocer los diferentes intervalos de clase
y las frecuencias asociada de la variable salary. Realice comentarios acerca de los resultados
obtenidos en la tabla.

La tabla de frecuencia
agrupada nos muestra que
hay una “tendencia central”
en el intervalo que va de los
$100 mil a los $120 mil dólares
el cual agrupa la mayor
cantidad de profesores,
seguido por los intervalos
inmediatamente superior
($120 mil - $140 mil) e
inmediatamente inferior ($80
Ilustración 14: Tabla de frecuencia agrupada de la variable salary
mil – $100 mil).

b.) Realice un estudio preliminar de las variables de interés en la base de dato a partir de las
diferentes funciones que suministra R para resúmenes parciales, tales como: base::summary(),
DescTools::Abstract(), psych::describe() y Hmisc::describe().

Ilustración 15: Abstract(Salaries)

Al ejecutar la función abstract, podemos observar que la base está compuesta por 397 docentes,
que todos los registros están completos; que la base tiene 6 variables 3 de las cuales son
categóricas (rango, disciplina y sexo) y 3 de las cuales son continuas (años de servicio, años con
doctorado y salario).

Ilustración 16: summary(Salaries)


Al ejecutar la función summary, podemos ver un panorama más completo de la distribución de las
variables. Con respecto a las variables categóricas podemos ver que la mayoría de los docentes
(266) son Profesores (Professor), la mayoría se dedica a disciplinas aplicadas (B:216) y la gran
mayoría son hombres (358).

Con respecto a las variables continuas, vemos que la media y la mediana del ingreso están dentro
del intervalo ($100 mil - $120 mil), lo cual es consistente con lo visto en el punto anterior (1.3-a),
encontramos que el salario va desde los $57 mil a los $231 mil dólares (por periodos de 9 meses),
así mismo encontramos que los docentes tienen entre 0 y 60 años de servicio con promedio de 17
años, y que tienen entre 1 y 56 años de haberse doctorado, con un promedio de 22 años.

Ilustración 17: describe(Salaries)

La función describe nos permite ver que las variables continuas tienen asimetrías positivas, es
decir están sesgadas hacia la izquierda, presentan una mayor concentración en los valores más
bajos.

Ilustración 18: hmisc::describe(Salaries)


c.) Diseñe un histograma en el cual se dé a conocer la tendencia del salario de los distintos docentes
que hacen parte de la encuesta. En tal histograma superponga la distribución Normal con los
parámetros estimados de la muestra de salarios. Lleve a cabo al menos una prueba de supuesto
de normalidad en R de la variable salary y de acuerdo al resultado obtenido y la teoría que
respalde tal prueba, ¿que distribución podría ser asociada a la variable antes mencionada?
Realice un gráfico de Densidad de Kernel4 y compare este con el histograma solicitado en este
ítem.

La ilustración 19 nos muestra


que la distribución de la variable
salarios, no es muy diferente de
la distribución normal a simple
vista.

Sin embargo, se evidencia que


esta variable, contrario a lo que
sugiere la distribución normal,
está sesgada hacia la izquierda.

Al realizar la prueba de
asimetría (skewness.norm de la
biblioteca normtest) para
verificar la normalidad
encontramos que el estadístico
T toma el valor de 0,712 lo que
indica un sesgo moderado a la
izquierda.
Ilustración 19: Histograma Salarios con la dnorm superpuesta
El gráfico de densidad de la
variable salarios, muestra el sesgo con mayor claridad.

Ilustración 20 Grafico de densidad de Kernel Ilustración 21: skewness test


Ilustración 22: Histograma de la variable salarios con las distribuciones normal (rojo) y gamma (negro)
superpuestas.

Propondría una distribución Gamma, con media en 113.708 (la media de salary) y escala de 7.000
(la escala la propuse arbitrariamente para superponer la distribución sobre el histograma).

Como se puede ver en la ilustración 22, al comparar la distribución Gamma (línea negra) con la
distribución Normal (línea roja) vemos que la Gamma es levemente más sensible al sesgo que
presenta la variable.

d.) Realice una comparación entre el histograma de los salarios de las docentes mujeres y docentes
hombres. ¿Existen diferencias significativas en termino de medidas de centralidad y dispersión?,
haga comentarios al respecto de acuerdo a la información que le suministra la tabla a
continuación.

Ilustración 23: Estadísticos comparación entre hombres y mujeres, variable salary


Lo primero que llama la
atención al momento de ver
los histogramas es la
diferencia en el volumen de los
dos gráficos, que se explica
por el hecho de que hay
muchos más hombres
docentes que mujeres
docentes en la muestra.

La media del salario de los


hombres es de $115 mil
mientras que la media del
salario de las mujeres es de
$101 mil. A pesar de que hay Ilustración 24: Histograma de la variable salario para hombre y para
una diferencia del 15% entre mujeres
una media y la otra, ambas se
encuentran dentro del intervalo que hemos venido proponiendo como media general ($100 mil a
$120 mil).

Los histogramas y la tabla de estadísticos también nos muestran que la dispersión con respecto a
los salarios es mayor para los hombres que para las mujeres. Llama la atención que la totalidad de
mujeres de la muestra están agrupadas en salarios por debajo de los $161 mil mientras que el
salario de los hombres puede llegar a $231 mil.

e.) Observe las líneas de código a continuación, ejecútelas y por supuesto interprete el resultado
obtenido. library(car); Salaries; attach(Salaries) Salaries[sex == "Male", ]; salarioH <-
Salaries[sex == "Male", 6]; salarioH De a conocer al menos tres variantes diferentes en la
plataforma R de la última línea, en la cual se lleve a cabo la misma tarea que realiza el código
anterior.

Las 4 líneas de código


propuestas en la
ilustración 25 realizan la
misma función.

Ilustración 25: Código para obtener un vector correspondiente a la variable


salary para los hombres
f.) Dé a conocer un diagrama circula 3D, un Diagrama Pareto y un Fan–plot de la variable categórica
que desde su punto de vista sea de mayor importancia y emita comentarios acerca de los
porcentajes asociados. Quizás puede ser ´útil para el análisis un Spinograms para caracterizar
variables de índole cualitativo.
Teniendo en cuenta que la variable sexo ya fue analizada en el ítem anterior y que la variable
“disciplina” parece tener una distribución más homogénea, en este ítem nos concentraremos en
el análisis de la variable rango (Rank).

Ilustración 26: Gráfico de Pareto, spineplot, Fan-plot y diagrama circular en 3d de la variable RANK

Lo que los gráficos anteriores nos dan a conocer de distintas formas es que la categoría Professor
es la predominante en la variable Rank, las dos categorías siguientes (profesor asociado y profesor
asistente) tienen tamaños muy similares.

El spinplot construido contra la variable discipline, muestra que en la categoría Profesor hay una
distribución igualitaria entre aquellos que se dedican a disciplinas teóricas (A) y aquellos que se
dedican a disciplinas aplicadas (B), no ocurre así con los profesores asociados y asistentes los
cuales tienen un sesgo hacia disciplinas aplicadas.
g.) Existe diferencia significativa entre los salarios de los docentes con cargo de profesor asociado,
profesor asistente y profesor. Diseñe un diagrama Stripchart, un Box–plot con notch y un Violin–
plot para llevar acabo tal comparación, de ser necesario utilizar medidas estadísticas de resumen
tanto de centralidad como de dispersión.

Ilustración 27: Boxplot y Violinplot del salario por rango

Lo que nos muestran las ilustraciones 27


y 28 no solo es que la media de los
Profesores es significativamente mayor
que la de los asociados y los asistentes,
sino que además la dispersión es mucho
mayor.

Hice el ejercicio de construir la tabla de


estadísticos del numeral d, para la
variable rango así como se hizo para la
variable sexo (ver ilustración 29 más
adelante).

Para el caso de la desviación estándar,


Ilustración 28 Stripchart del salario por rango
en el caso de los profesores, la
desviación es el doble que en los
asociados y casi el triple de los asistentes, las otras medidas de desviación muestran patrones
similares.
Ilustración 29 Tabla de estadísticas de la variable salary discriminada por rangos

h.) Es posible asumir que los docentes de disciplinas teóricas tienen mejor salario que aquellos de
trabajan en ciencias aplicadas. ¿Que elementos estadísticos utilizaría para validar o refutar tal
supuesto?

De hecho, cuando vemos


los boxplot de salarios por
disciplina, encontramos que
el boxplot del conjunto B
(disciplinas aplicadas) está
ubicado levemente más
arriba que el boxplot del
conjunto A (disciplinas
teóricas).

Pero teniendo en cuenta


que ambos Boxplot son
similares, antes de
adelantarse a concluir que
los docentes de disciplinas
teóricas ganan más en
promedio, vamos a hacer
una prueba t, sobre las dos
medias Ilustración 30: Boxplot de salarios por disciplina

La prueba T realizada sobre las


dos medias tiene un nivel de
significacia p-value de 0.0018,
es decir que bien podríamos
descartar la hipótesis de que
haya una diferencia
significativa entre las medias
Ilustración 31: prueba T sobre las medias de la variable salary para los de los salarios de los dos
grupos A y B
grupos.

Fuente: https://www.datanalytics.com/libro_r/igualdad-de-medias-y-t-test.html
i.) Utilice la gráfica de comparación de factores para emitir conclusiones parciales de acuerdo a las
variables categóricas que hacen parte del estudio.

Sexo y rango: Ya se había identificado


en ítems anteriores que los
profesores tenían un salario medio
mucho mayor que los asociados y
asistentes, ahora vemos que la media
de los asistentes es levemente mayor
que la de los asociados y además que
estas tendencias son independientes
del sexo, es decir se comportan de la
misma manera para ambos sexos.

Disciplina y rango: Las diferencias


entre las medias de los distintos
rangos son un poco menos
pronunciadas en el caso de las
disciplinas aplicadas (B) que en el de
las disciplinas teóricas (A).

Disciplina y sexo: en este caso hay


una diferencia más marcada,
podemos ver que en las disciplinas
teóricas (A) las mujeres tienen un
salario medio significativamente
menor que los hombres.
Ilustración 32: Gráfico de comparación de factores para las
variables disciplina, sexo y rango

j.) Encontrar los intervalos en el que se pueda garantizar que se encuentra por lo menos el 65 %, 72%
y 87% de los salarios de los docentes dados a conocer en la muestra, utilice una variable
categórica para discriminar. Emita comentarios.

La ilustración 33 nos muestra un cuadro que fue


poblado con ayuda de una función que aplica el
teorema de Chebyshev para definir los intervalos
para distintos niveles de probabilidad.

Los intervalos fueron discriminados utilizando la


Ilustración 33: Intervalos - Teorema Chebyshev
variable sexo y lo que podemos ver es, de nuevo, la
asimetría entre hombres y mujeres dentro de la
muestra. Nótese que para cada una de los intervalos construidos, los rangos salariales que
agrupan el porcentaje solicitado (65,72,87) de hombres está por encima que el intervalo salarial
respectivo para agrupar la misma proporción de mujeres.
k.) ¿Como utilizaría las gráficas que diseñan los comandos histogram() y bwplot() que hacen parte
del paquete lattice, para argumentar su posición respecto a una conclusión en términos
estadísticos?, brinde al menos dos ejemplos.

Ilustración 34: Ejemplos de histogram() y bwplot() para las variables disciplina y rango con respecto al
salario

Utilizamos las funciones histogram() y bwplot() para validar dos relaciones que habíamos descrito
en ítems anteriores: El comportamiento del salario con respecto al rango y el comportamiento del
salario con respecto a la disciplina de estudio.

Vemos que los bwplot son similares a los boxplot ya construidos en ítems anteriores y nos
confirman que las medias de los salarios para las disciplinas A y B son muy similares mientras que
en el caso del rango, la media (y dispersión) de los salarios de los profesores es significativamente
mayor que en los asociados y asistentes.

Los histogramas (que no habíamos construido hasta ahora) nos permiten sacar algunas
conclusiones sobre la distribución de las variables que no habíamos observado, por ejemplo que
la variable categórica “Professor” pese a tener mayor dispersión es más simétrica con respecto a
la media que los otros dos grupos y que asimismo, que la variable disciplina A (teóricas) con
respecto al salario está más sesgada a la izquierda que las disciplinas aplicadas.
l.) ¿Que utilidad le brinda usted la gráfica de interacción y la gráfica de parcela de diseño para
ilustrar características de las variables de interés en la base de datos? Diseñe tales gráficas y
explique lo oportuno de las mismas.

Las ilustraciones 35 y
36 están ambas
construidas con
respecto a la media
del salario.

La parcela de diseño
nos permite
identificar
rápidamente las
diferencias de las
medias de las
distintas variables
categóricas y su
posición con
respecto a la media
general.

El gráfico de Ilustración 35: Gráfico de interacción


interacción va más
allá y nos permite
comparar dos
variables categóricas
simultáneamente.

Así podemos
evidenciar si la
tendencia
inicialmente
identificada de una
variable categórica
con respecto al
salario (por ejemplo
el rango) se ve más
marcada o, al
contrario,
“suavizada” al Ilustración 36: Parcela de diseño
discriminar por una
segunda variable categórica.
1.4 1.4 Datos panel de un estudio socio–económico en Alemania

a.) Diseñe un análisis estadístico fundamentado en el material dispuesto en todas las


presentaciones que hacen parte del curso para caracterizar las variables tanto continuas como
los factores asociados que definen la base de datos.

La base de datos cuenta con un total de 675 observaciones de 12 variables, de las cuales 5 son
variables categóricas, 5 son variables numéricas discretas y 2 son variables numéricas continuas.

Variables categóricas:

Ilustración 37: Variables categóricas

La ilustración 37 nos muestra una segmentación de las variables categóricas que nos permite ver
que aproximadamente el 40% de los niños encuestados asistían al Gymnasium2 mientras que un
30% de los niños asistía a Hautschule3 y otro 30% asistía a Realschule4.
Un 80% de los niños encuestados vivían en hogares que estaban en cabeza de un matrimonio. La
muestra está compuesta aproximadamente en partes iguales por niños y niñas, cerca del 45% de
los encuestados afirmó que en su hogar la madre no tenía empleo, un 40% afirmó que la madre
tenía un empleo parcial y solo un 15% afirmó que tuviera un empleo de tiempo completo.

2
Escuela de énfasis mixto
3
Escuela de énfasis técnico
4
Escuela de énfasis académico
Ilustración 38: Los encuestados provenían de diferentes estados, como se muestra en el
dotchart

Variables discretas:

Ilustración 39: Variables discretas


Con respecto a las variables discretas podemos evidenciar que en la mayoría de los hogares hay
dos niños por familia (cerca del 40%) y que en cerca del 25% de los hogares hay 3 niños.
La mayoría de los encuestados son primogénitos, la mayoría de los hogares están compuestos
por 4 personas, cada año se recogió aproximadamente el 8% de las muestras, pero una cantidad
levemente superior de las muestras se tomó en los años 1995, 2001 y 2002.
Todos los encuestados tenían 14 años al momento de responder la encuesta y un grupo
especialmente grande fueron niños nacidos en 1980.

Variables continuas:
Con respecto a las variables continuas tenemos los años de educación de la madre (especialmente
concentrados entre los 10 y los 12 años de educación) y el ingreso del hogar que tiene media entre
los $50 mil y los $100 mil5

Ilustración 40: Variables continuas

5
La moneda es el marco alemán, probablemente.
b.) Considere la variable income que define los ingresos del hogar en la base de datos. A partir de
este vector, diseñe un ciclo con el comando for en el cual; de ´este vector income se obtengan
10000 muestras cada una de ellas de tamaño 170 y a cada una de estas muestras determinarle: ¯y,
Mediana, Mg y Mar. Hacer los histogramas comparativos, con los polígonos de frecuencia y la
distribución normal superpuesta con la estimación de parámetros µ y σ proveniente de cada uno
de los vectores que contiene las 10000 estimaciones de Medias, Medianas, Media geométrica y
Media armónica. Quizás sea pertinente considerar la función en R: sample(1:100, 70, replace = T);
sample(1:100, 70, replace = F) Observe los resultados e interprete y utilice la función sample()
para diseñar el ciclo.

Ilustración 41: Resultados del experimento propuesto

El grafico muestra los resultados obtenidos en el ejercicio, llama la atención que las medias de las
10.000 muestras, así como las medias armónicas de las 10.000 muestras se distribuyen de acuerdo
a la distribución normal con media en u y desviación estándar s. No ocurre así con la media
geométrica ni con la mediana de las 10.000 muestras, las cuales adoptan distribuciones
multimodales.

c.) Aunque la base de datos GSOEP9402, dispone de gran variedad de información ya sea continua
y categórica. En ocasiones tal cantidad de información no es suficiente para que el estadístico
descubra relaciones implícitas que pueden describir el comportamiento intrínseco de las
variables con las cuales se dispone. Por ejemplo, en el caso de interés una pregunta pertinente
es; si los ingresos del hogar están asociados con el nivel de educación en años de la madre. En la
base de datos GSOEP9402 las variables income y meducation son ambas continuas. ¿cómo se
podría reescribir las características de la variable meducation de tal manera que sea definida
como un factor con los niveles dados por los intervalos que se obtienen de:
quantile(meducation) Posterior de haber hecho la conversi´on7 de la variable meducation a un
factor. Diseñe un Box–plot y violín–plots en el cual se asocie la variable income con los distintos
niveles del nuevo factor meducation. Emita comentarios al respecto y concluya. ¿Hay impacto
en los ingresos del hogar de acuerdo a los años de educación ha recibido la madre?

Se creó la variable categórica


“nivel” para calificar al nivel de
escolaridad de la madre.

Cada categoría corresponde aun


quintil, es decir “Bajo” son
aquellos que están ubicados en el
primer quintil de la variable
continua “Años educación
madre”, “Medio” son quienes
están ubicados en el segundo
quintil y así sucesivamente hasta
“Muy Alto” que son los que están
ubicados en el quinto quintil.

Lo que nos permiten observar los


boxplot y violinplot es que hay
poca diferencia en el ingreso de
los hogares con respecto al nivel
educativo de la madre.

Únicamente se aprecia una media


más elevada en el caso de los
hogares donde la madre presenta
un nivel educativo “muy alto” y
esto bien podría ser más una
consecuencia que una causa del
nivel de ingreso del hogar.

Ilustración 42: Boxplot y Violinplot de ingresos por nivel de


escolaridad de la madre
d.) Realice una propuesta consistente para considerar las diversas variables que exhibe tal base de
dato, con el objetivo de realizar un informe estadistico objetivo. Puede apelar a todas las
herramientas tanto conceptuales como de ındole practico para el diseño de su informe.

Ilustración43: Abstract(GSOEP 9402)

Al ejecutar la función abstract, podemos observar que la base está compuesta por 675
estudiantes, que todos los registros están completos; que la base tiene 12 variables 5 de las cuales
son categóricas (escuela, estado civil, genero, empelo de la madre y estado o region) 5 son
variables numéricas discretas (niños por familia, año de encuesta, orden de nacimiento, año de
nacimiento y tamaño del hogar) y 2 son variables numéricas continuas(años de educación de la
madre e ingresos del hogar).

Ilustración44: summary(GSOEP 9402)

Al ejecutar la función summary, podemos ver un panorama más completo de la distribución de las
variables. Con respecto a las variables categóricas podemos ver que en la selección de la muestra
de genero están casi igual tanto en la muestra de niños como de niñas la diferencia es mínima, la
mayoría de los niños están en un hogar en donde sus padres están casados, en cuanto a si la madre
trabaja o no la mayoría de las madres de los estudiantes si trabajan sea de tiempo parcial o
completo, también notamos que la mayoría de los estudiantes encuestados vivian en los estados
de la antigua Alemania occidental y por ultimo la seleccion de la escuela de los estudiantes la
mayoría de los estudiantes están concentrados en las escuelas básicas y medias.

Con respecto a las variables numéricas discretas en promedio hay 2.5 niños por hogar, la mayoría
de los hogares esta compuesto por 4 integrantes en promedio.

Con respecto a las variables numéricas continuas podemos decir que el promedio de ingresos del
hogar de los estudiantes está en $71.311 marcos alemanes pero notamos que el ingreso mas bajo
es de $ 1.248 marcos alemán, en el cual hacemos una inferencia de que probablemente ese
estudiante provenga de uno de los estados de la antigua Alemania oriental teniendo en cuenta
que la encuesta se empezó a realizar en el año 1994 habiendo pasado tan solo 5 años de la caída
del muro de Berlín por lo que aun hay hogares que a esa fecha posiblemente todavía no hayan
superado las consecuencias que dejo el antiguo modelo económico socialista que imperaba en
esa parte del país antes de la caída del mundo de Berlín; también notamos que el ingreso mas alto
en el hogar de un estudiante es $ 258.341 lo que nos permite inferir que ese estudiante proviene
de uno de los estados de la antigua Alemania occidental que adopto un modelo capitalista, y que
además quizás sea hijo de un algún reconocido empresario o gerente de una importante compañía
del país.

Ilustración45: Grafico de spineplot(GSOEP 9402)

Continuando con nuestro análisis de la base de datos GSOEP 9402 aquí mostramos un análisis
importante entre la variable numérica años de educación de la madre y el factor categórico
escuela en el cual se establece un relación directamente proporcional entre los años de educación
que tiene la madre del niño y la influencia que esta ejerce en la calidad educativa del niño al
aumentar la probabilidad de ingresar en una mejor escuela en este caso Gymnasium y entre menos
años educativos tenga la madre del estudiante, mas alta la probabilidad de que el niño estudie en
una escuela de enseñanza básica en este caso Hauptschule.
Ilustración46:Grafico

En la siguiente ilustración podemos notar los diferentes tipos de relación entre las diferentes
variables tanto categóricas como numéricas y como estás afectan la escuela en donde estudiara
el niño,
Anteriormente ya habíamos analizado los años de educación de la madre, ahora analizaremos las
siguientes variables:
Ingresos del hogar vs Escolaridad: notamos en el grafico que entre mayor sean los ingresos del
hogar mayor es la probabilidad de que el niño estudie en una escuela de prestigio puesto que
tienen un mayor poder adquisitivo para pagar un buen colegio en tanto que si los ingresos son
bajos el niño estudiara en una escuela de educación básica.
Tamaño del hogar vs Escolaridad: notamos en el grafico que entre mas integrantes tenga el hogar
mayor es la probabilidad de que el niño estudio en una escuela básica, puesto que hay mayores
gastos entre los diversos integrantes lo que reduce las posibilidades de que el niño reciba una
buena educación en un colegio de prestigio.
Empleo de la madre vs Escolaridad: notamos que las madres de los niños que no trabajan
aumentan la probabilidad de que sus hijos estudien en un colegio de prestigio y reciban una buena
educación quizás haya que analizar algún factor cultural de Alemania que nos indique que las
madres que no trabajan es porque sus maridos ganan muy bien por ende sus hijos reciben una
buena educación y ellas no tienen necesidad de trabajar, pero esto seria en otro estudio donde
consideremos este factor cultural de este país.
Orden de nacimiento Vs Escolaridad: notamos en este grafico que los niños que nacen de primero
en el seno de un hogar tienen mas probabilidad de recibir una buena educación en un colegio de
prestigio que los que nacen de ultimo puesto que entre mas integrantes se vayan sumando al
hogar mas aumentan los gastos por ende el dinero no alcanza para que pueda estudiar en una
escuela de prestigio.

1.5 Promedios móviles

Ilustración 47: Demanda de un producto en 5 meses

a.) ¿Cuál es el pronóstico para el mes de junio empleando un promedio móvil de tres meses?

El pronostico para junio sería igual al promedio de los meses marzo, abril y mayo, es decir
(900 + 820 + 910)
= 876,67
3

b.) A una variación de esta técnica se le conoce como promedios móviles ponderados. La
ponderación permite que al calcular el pronóstico se le dé más importancia a los datos recientes
de la serie de tiempo. Por ejemplo, en un promedio móvil de tres meses a los datos que tienen
un mes de antigüedad se le da 3 como peso, 2 a los que tienen dos meses de antigüedad y 1 a los
que tienen un mes. Con los datos dados a conocer en el cuadro (3), calcule el pronóstico para
junio usando promedios móviles de tres meses a partir de ponderaciones.

La ilustración 44 muestra la proyección para los meses de junio, julio


y agosto realizada con ayuda de una función diseñada en R.

Ilustración 48: Estimación de


los meses junio, julio y agosto
c.) De acuerdo a las instrucciones del ítem anterior, de conocer una estimación de la desviación
muestral y desviación a la mediana utilizando promedios móviles ponderados de tres meses.

De acuerdo a la definición dada de la media móvil ponderada, el pronóstico para la demanda del
mes 6 es una función (una media ponderada) de la demanda registrada en los meses 3, 4 y 5.

El pronóstico para el mes 7 es una función de la demanda (estimada) del mes 6 que a su vez es
una función de la demanda de los meses 3,4 y 5.

Podemos decir entonces que si 𝑦𝑛 es la demanda del producto pronosticada para determinado
mes, entonces:

𝑦6 = 𝑓(𝑦3 , 𝑦4 , 𝑦5 )
𝑦7 = 𝑓(𝑓(𝑦3 , 𝑦4 , 𝑦5 ))
𝑦8 = 𝑓(𝑓(𝑓(𝑦3 , 𝑦4 , 𝑦5 )))

Para el caso del ejemplo anterior:

3 2 1
𝑦6 = 𝑦5 + 𝑦4 + 𝑦3 = 878,3333
6 6 6

3 2 1 7 4 1
𝑦7 = 𝑦6 + 𝑦5 + 𝑦4 = 𝑦5 + 𝑦4 + 𝑦 = 874,1667
6 6 6 12 12 12 3

3 2 1 45 20 7
𝑦8 = 𝑦7 + 𝑦6 + 𝑦5 = 𝑦5 + 𝑦4 + 𝑦3 = 884,0278
6 6 6 72 72 72

Lo que podemos ver es que con una base de 5 meses y elaborando medias ponderadas de los
últimos 3 meses, el pronóstico para el mes 5+n (o el pronóstico número n) se puede expresar
también como una media ponderada de los meses 3, 4 y 5.

Si repetimos el ejercicio unas cuantas veces (es decir proyectamos no solo 3 meses sino al menos
12 meses) podemos ver que los pronósticos convergen a 882.

Así como los pronósticos de la demanda para los meses 6, 7 y 8 son funciones de los meses 3, 4 y
5, la media estimada (pronosticando con esta metodología) para los meses 6, 7 y 8 también se
puede expresar como una función de las observaciones de los 5 periodos base.

Así, la media aritmética en los periodos 6, 7 y 8 es:

7 8 9
𝑦1 +𝑦2 + 𝑦3 + 𝑦4 + 𝑦5
6 6 6
𝜇6 = =843,05
6

15 20 25
𝑦1 + 𝑦2 + 𝑦 + 𝑦 + 𝑦
𝜇7 = 12 3 12 4 12 5 = 848,21
7
97 140 195
𝑦1 +𝑦2 + 𝑦 + 𝑦 + 𝑦
72 3 72 4 72 5
𝜇8 = =852,59
8

Recurriendo más a la observación que a la demostración matemática, podemos ver que las sumas
que dan origen a las estimaciones de los periodos 𝑦𝑛 así como de las respectivas medias
𝜇𝑛 convergen a 882 en la medida que n se hace más grande.

Se puede explicar en el caso de la media que en la medida que agregamos n observaciones que
tienden a 882, la media también se va a acercar (aunque más lentamente que el pronostico 𝑦𝑛 a
882. Lo mismo ocurrirá con la mediana, la cual tenderá a 882 en la medida que agreguemos
observaciones que tienden a 880.

El siguiente cuadro contiene la estimación de la desviación con respecto a la media y la mediana


(DM y DMe) para los meses 6, 7 y 8 teniendo en cuenta que los valores de dichos meses son
pronósticos usando medias móviles ponderadas de los últimos tres meses.

Mes Media Dm Mediana Dme


6 843,06 53,06 849,17 53,06
7 848,21 49,90 878,33 49,90
8 852,69 47,02 878,75 47,02
Ilustración 43: Pronósticos DM y DMe

Estas estimaciones son coherentes con lo sustentado, la media tiende a 882 y la mediana tiende a
0.

d.) Desde su percepción; ¿Qué tipo de problema puede manifestar este tipo de procedimiento
estadístico para hallar pronósticos de una variable de interés?

El principal problema que


encuentro es que este
método al utilizarse para
proyectar varios periodos
elimina la tendencia de la
variable y la proyecta como
una línea horizontal sin
pendiente, como se
muestra en la ilustración 45.

Incluso si se agregaran más


observaciones (por
ejemplo, se hiciera el cálculo
sobre las ultimas 5
observaciones y no sobre
las ultimas 3) se va a Ilustración49: Proyección de 12 meses usando un promedio móvil
obtener una proyección ponderado de 3 meses
“horizontal”, sin pendiente puesto que al proyectar con un promedio nunca se va a obtener un
valor proyectado mayor al máximo de las observaciones ni un mayor proyectado menor al mínimo
de las observaciones.

En otras palabras, para un conjunto de observaciones { 𝑥1 , 𝑥2 , 𝑥3 , 𝑥𝑛 } se tiene que 𝑥̅ ≤ max (𝑥) y


por lo tanto una proyección que se realice utilizando promedios (sean estos móviles, fijos,
ponderados) no contempla la posibilidad de que la variable en cuestión alcance un nuevo mínimo
o un nuevo máximo.

1.6 Características del muestreo

Realice una consulta en un texto de estadística en el cual se dé a conocer las características de los
siguientes mecanismos de muestreo

Dé a conocer al menos un ejemplo que estén asociado con su disciplina de estudio.

Supongamos que de la población total de empresas formales del país (aquellas que están registradas ante
el RUES) quiero seleccionar una muestra representativa de 100 empresas para analizar la variación en
ventas durante el año 2020.

a.) Muestreo aleatorio simple


• Cada uno de los elementos que forman parte de la población objetivo, tiene la misma probabilidad
de ser seleccionado para formar parte de la muestra.
• De igual forma, cada muestra de tamaño determinado tiene la misma oportunidad de ser
seleccionada.
• Es común para muestras de tamaño reducido.
• Su aplicación es prácticamente imposible en los casos cuando la muestra sea de gran tamaño.
• La población debe facilitar su enumeración para que permita la aplicación de ese método.

Tipos de muestreo aleatorio simple


Se pueden identificar dos tipos de muestreo aleatorio simple, el primero es con reemplazo, el
segundo es sin reemplazo.
Muestreo aleatorio simple con reemplazo
En este caso, un elemento que ya ha sido seleccionado para formar parte de la muestra
se devuelve al recipiente con el resto de elementos y puede volver a formar parte de una
nueva elección, es decir, vuelve a formar parte del marco de la muestra de donde se
escogerá un nuevo elemento que integrará la muestra que se estudiará, puede volver a
ser elegido.
Muestreo aleatorio simple sin reemplazo
A diferencia que, en el caso anterior, una vez que un elemento ha sido elegido para formar
parte de la muestra, el mismo ya no regresa al recipiente, es decir, no puede volver a ser
escogido más de una vez.
Este tipo suele ser mucho más eficiente que el primer método.

Para el caso del ejemplo, si tomo todos los NIT de la base RUES, los incluyo en un vector,
selecciono 100 aleatoriamente con ayuda de Excel o R y aplico la encuesta a las empresas
cuyos NIT resultaron seleccionados.
b.) Muestreo ponderado.
Es aquel en el que aplico más peso a ciertas variables para equilibrar los resultados del
experimento. Por ejemplo, la base RUES cuenta con muy pocas empresas de los departamentos
del sur del país (Amazonía, Caquetá, Guaviare), por lo que puedo optar por aumentar el peso de
estos elementos dentro de la muestra para tener un resultado más representativo de todo el país.

c.) Muestreo estratificado.


La población a investigar se divide en grupos relativamente homogéneos con relación a la
característica en estudio. Estos grupos se denominan estratos, donde la unidad o el elemento
investigado presenta una característica tal, que solo le permite pertenecer a un estrato.
Es necesario entender que un estrato es una subpoblación y como tal, cada uno se constituye en
dominio de estudio.
Los estratos pueden o no estar compuestos del mismo numero de unidades, por tal razón la fracción
de muestreo puede variar de un estrato a otro.
Para lograr una estratificación adecuada se debe definir una variable que efectivamente permita
asignar a cada elemento un único grupo o estrato.
Tipos de muestreos estratificados
El tipo de muestreo estratificado se define por el tamaño que definimos para cada estrato. Los tipos
de muestreo son los siguientes:
Proporcionado:
Cuando utilizamos el muestreo estratificado proporcional, cada estrato tiene en la muestra el
mismo peso que se observa en la población.
Así, por ejemplo, si dividimos la población de una ciudad en estratos de edad, es muy probable
que obtengamos estratos de distintos tamaños. Por ejemplo 70% adultos y 30% niños. Al tomar la
muestra, los estratos de adultos y niños deben tener el mismo peso en observamos en la
población (70% y 30%).
Uniforme
En la muestra que tomamos, todos los estratos tienen el mismo peso, sin importar el tamaño que
tienen en la población. Siguiendo el ejemplo anterior serían 50% adultos y 50% niños.
Óptimo
El tamaño de los estratos se determina proporcionalmente a la desviación estándar de las
variables que estudiamos. De esta forma se los estratos con mayor variabilidad interna tendrán
un mayor peso que los de menor variabilidad.

Por ejemplo, podría dividir la base RUES en los 3 macro sectores de la economía (comercio,
industria y servicios) y seleccionar 33 o 34 empresas de cada sector.

d.) Muestreo sistemático lineal


El muestreo sistemático es un tipo de muestreo probabilístico donde se hace una selección aleatoria
del primer elemento para la muestra, y luego se seleccionan los elementos posteriores utilizando
intervalos fijos o sistemáticos hasta alcanzar el tamaño de la muestra deseado.
El procedimiento del muestreo aleatorio sistemático es muy fácil y se puede hacer manualmente. Los
resultados son representativos de la población a menos que se repitan ciertas características de la
población por cada enésimo individuo, lo que es muy poco probable.
La principal ventaja de utilizar un muestreo sistemático sobre un muestreo aleatorio simple es su
sencillez. Permite que el investigador añada un grado de sistema o proceso en la selección aleatoria
de los sujetos.
Otra ventaja del muestreo aleatorio sistemático sobre el muestreo aleatorio simple es la garantía de
que el muestreo se hará equitativamente sobre la población.
El proceso de obtención de la muestra sistemática es muy similar a una progresión aritmética.

Número de inicio: El investigador selecciona un número entero que debe ser menor al número
total de individuos en la población. Este número entero corresponderá al primer sujeto.
Intervalo: El investigador elige otro número entero que servirá como la diferencia constante entre
dos números consecutivos en la progresión. El número entero se selecciona típicamente de modo
que el investigador obtenga el tamaño de la muestra correcto.

Por ejemplo, de las 100 empresas que componen la muestra de la base RUES puedo seleccionar
10 empresas cuyo NIT finalice en 0, 10 empresas cuyo NIT finalice en 1, 10 empresas cuyo NIT
finalice en 2 y así sucesivamente hasta llegar a 9 y completas las 100 empresas.

e.) Muestreo por conglomerados.


Es un procedimiento de muestreo probabilístico en el que se seleccionan aleatoriamente varios
grupos (llamados conglomerados, cúmulos o áreas) conformados por elementos heterogéneos de la
población, pero que tienen algo en común.
A este tipo de muestreo aleatorio se le conoce también como muestreo por cúmulos o muestreo por
áreas.
Se utiliza cuando no se pueden estudiar todos los elementos de la población ya que esta es muy
grande o se encuentra dispersa en un área geográfica muy extensa, por lo que los costos de la
investigación serían relativamente elevados.
Los conglomerados deben ser, en la medida de lo posible, lo más heterogéneos que se pueda con el
fin de representar a la población total. Asimismo, deben ser mutuamente excluyentes y exhaustivos
en conjunto.
Los individuos que componen los conglomerados son seleccionados de forma indirecta, ya que lo que
se elige primeramente al azar son los cúmulos y no los individuos (por lo menos en una primera
instancia).
No olvides determinar el tamaño de la muestra y el número de grupos que se seleccionarán. ¿Cómo se
define el número de grupos? Dividiendo el tamaño de la muestra entre el número promedio estimado
de elementos de la población en cada grupo.
Debes elegir un marco de muestreo existente o crear un nuevo marco de muestreo de grupos de la
población objetivo. Puedes hacer ajustes si es necesario para obtener el tamaño de la muestra
necesario.
Tipos de muestreos por conglomerados
Muestreo por conglomerados monoetápico
Después de haber seleccionado los conglomerados se estudian a todos los individuos que los
componen.
Muestreo por conglomerados en dos etapas
En lugar de estudiar a todos los elementos de los grupos seleccionados de la muestra, se procede
a realizar una muestra aleatoria de los elementos de cada grupo seleccionado.
Muestreo por conglomerados en fases múltiples
Como mencionamos anteriormente, este tipo de muestreo es de gran utilidad cuando la población
se encuentra distribuida de forma dispersa y en una gran área, por lo que se puede proceder por
etapas.
En primer lugar, se puede seleccionar una muestra aleatoria de unidades de superficie. Después,
dentro de las unidades de superficie se puede seleccionar una muestra aleatoria de subunidades
geográficas. Luego, se puede volver a seleccionar al azar una muestra de estas subunidades
geográficas para, finalmente, pasar al estudio de los individuos, los cuales también son
seleccionados al azar.

Por ejemplo, supongamos que mi capacidad para aplicar la encuesta es limitada y solamente
puedo encuestar empresas en Cúcuta y en Santa Marta, en ese caso, en la Base RUES debo
seleccionar 50 empresas de la cámara de comercio de Cúcuta y 50 empresas de la cámara de
comercio de Santa Marta para el Magdalena y aplicarles la encuesta.

Fuentes: OTZEN, T. & MANTEROLA C. Técnicas de muestreo sobre una población a estudio. Int. J.
Morphol., 35(1):227-232, 2017. (disponible en: https://scielo.conicyt.cl/pdf/ijmorphol/v35n1/art37.pdf)

1.7 Números aleatorios

Para poder realizar un muestreo aleatorio simple se requiere la utilización de números aleatorios o
números pseudoaleatorios. Por lo tanto, es necesario comprender el concepto mismo que encierran estos
números y como generarlos. Realice una consulta en el cual se dé a conocer las características de tales
números, ¿Qué principio utilizan los softwares tales como R, Python o Julia para determinar este conjunto
de números?

En algunos textos académicos se pueden encontrar muchas propiedades que ayudan a definir los números
aleatorios, en este caso escogí dos propiedades porque me parecen sencillas.

Un número aleatorio es aquel que cumple con las dos siguientes propiedades:

1. No se puede predecir (no tienen un orden)


2. Una serie de números aleatorios posee una distribución uniforme, es decir cada uno de los
números que compone la serie tiene la misma probabilidad de aparecer en la misma. (no tiene
una tendencia central)
En ese orden de ideas una serie de números es una serie aleatoria si los números carecen de orden y de
tendencia central.
Para generar un conjunto de números pseudoaleatorios se requiere diseñar un algoritmo de generación.
Lo que resulta difícil es que dicho algoritmo genere números pseudoaleatorios con periodo de vida
suficientemente grande y además pase sin problemas las pruebas de uniformidad e independencia. Por lo
cual se necesita:
Equidistribución: Los números pseudoaleatorios deben repartirse por igual, como correspondería a una
verdadera distribución uniforme.
Largo periodo: Todos los generadores de números pseudo aleatorios tienen un periodo a partir del cual la
secuencia de números se vuelve a repetir. Para evitar correlaciones no deseadas es importante que el
periodo sea largo para no llegar a agotar la secuencia en un cálculo concreto.
Repetibilidad: A veces se necesita repetir el cálculo con exactamente los mismos números pseudo
aleatorios (para hacer una comprobación, por ejemplo). Así que conviene que el generador permite
almacenar su estado.
Largas subsecuencias disjuntas: Si la simulación es muy extensa resulta conveniente subdividirla en otras
más pequeñas, para lo que es importante que sean estadísticamente independientes y así se puedan
recombinar sin introducir correlaciones.
Portabilidad: La rutina debe generar exactamente la misma secuencia de números pseudo aleatorios no
solamente por distintos lenguajes de programación si no también en distintas máquinas.
Eficiencia: La generación de cada número pseudoaleatorio debe consumir muy poco tiempo.
Estadísticamente independientes.
Continuidad: Los números pseudoaleatorios generados deben ser continuos en lugar de discretos.
Media del conjunto: Debe ser igual a 1⁄2
Varianza del conjunto: Debe ser igual a 1⁄12
La generación de números pseudoaleatorios en R es una de las mejores disponibles en paquetes
estadísticos. Entre las herramientas en el paquete base de R estarían:
rdistribución (n, ...): genera valores aleatorios en forma decimal de la correspondiente distribución. Por
ejemplo: runif (n, min = 0, max = 1), generaría n valores de una uniforme.
sample (): genera muestras aleatorias de números enteros de variables discretas y permutaciones.

También podría gustarte