Documentos de Académico
Documentos de Profesional
Documentos de Cultura
De acuerdo con el portal exto.com, el indicador EPS o Earning per Share es una relación entre la utilidad
neta de las compañías y el número de acciones en circulación. Es decir, un índice que mide de 0 a 100 la
rentabilidad individual de una acción.
Se podría decir en pocas palabras que el RPS es un indicador del comportamiento de la acción en el
mercado, mientras que el EPS es un indicador de la rentabilidad de la acción.
Vamos a trabajar con el EPS, porque consideramos que este indicador está más ligado al comportamiento
de la empresa que al comportamiento del mercado y por lo tanto depende menos de la volatilidad del
mercado, se pueden llegar a conclusiones más robustas y más de largo plazo que si se usa el RPS.
EPS:
Vamos a proponer de forma arbitraria un rango de interpretación Interpretación Rango EPS
para la variable EPS, tal como se muestra en la Ilustración 1. Muy Bueno Entre 76 y 100
Bueno Entre 51 y 75
Teniendo en cuenta que EPS es un indicador que se puede tomar
Regular Entre 26 y 50
como una calificación de 1 a 100 de la rentabilidad de la empresa,
Malo Entre 1 y 25
estoy tomando todas las calificaciones posibles y segmentándolas en
Ilustración 1: Interpretación EPS
cuatro grupos de igual tamaño.
Seguramente esta calificación no coincida con los criterios de los
analistas de inversión, pero facilitará el análisis de la variable.
a.) Determinar las distintas medidas de tendencia central: media, mediana, media armónica y media
geométrica. En este ítem, quizás sea oportuno diseñar una función en R que conjugue las
medidas de centralidad para un mismo vector numérico que se cataloga como input.
b.) Determine los cuartiles Q1, Q2 y Q3 y utilícelos para diseñar un Box–plot asociado. De acuerdo a
la ilustración de tal Box–plot ¿sobre cuál intervalo se encuentra el 50 % de la muestra?
Ilustración 3: Cuartiles de la
variable EPS
c.) Las realizaciones de las distintas medidas de dispersión; Rango, varianza muestral, desviación
típica muestral y por supuesto el MAD.
e.) De acuerdo a los dos ítems anteriores. Diseñe un gráfico en donde de manera simultánea se
ilustra el histograma da la variable cuantitativa de interés y en la parte inferior de tal gráfico un
Box–plot de la misma variable dispuesto de manera horizontal. Por supuesto, se mantenga
paridad en los ejes de medidas para ambos gráficos.
Podríamos adelantarnos
a proponer que hay dos
grupos de empresas un
grupo de empresas de
“alta rentabilidad” con
un EPS promedio de 80 y
un grupo de empresas de
“baja rentabilidad” con
un EPS promedio de 20.
El grupo de empresas de
“alta rentabilidad” es
más numeroso,
predomina sobre el de
Ilustración 7: Histograma/Boxplot EPS
baja rentabilidad.
f.) ¿Cuáles estadísticos de asimetría consideraría oportuno aplicar para describir la forma del
histograma del inciso anterior?
Calculé los estadísticos de asimetría propuestos en clase,
es decir Pearson, Fisher y Yule-Bowley.
De manera consistente, los estadísticos de asimetría Ilustración 8: Estadísticos de asimetría
arrojaron valores negativos, lo que indica un sesgo
negativo o sesgo a la derecha de la variable EPS.
Esto concuerda con las conclusiones de los ítems anteriores.
g.) Es posible asumir que los datos de la muestra aleatoria son homogéneos entre sí, ¿qué
estadístico es oportuno para evaluar tal característica?
EL Coeficiente de Variación de Pearson, el cual es
del 42,3% lo que indica alta variabilidad en los datos
ya que los datos en la muestra son heterogeneos.
h.) En vista de que las variables Fuerza relativa del grupo de industria y Ventas/margen/ROE son
variables categóricas, ¿cómo las utilizaría dentro de su análisis para validar sus resultados de
acuerdo a la variable que selecciono para su estudio estadístico? Dé a conocer su iniciativa a
partir algoritmos diseñados en R que ilustren su punto de vista.
De acuerdo al planteamiento
del ejercicio, la muestra de 25
empresas cuenta con las
siguientes variables:
-Bolsa de valores
-Ticker
-Posición en BusinessWeek.
-Precio por acción
-Ganancia por acción.
1
La empresa con la posición más baja de la muestra está ubicada en el 412, pero el ranking total va hasta 500.
Al analizar el histograma de la
variable precio, encontramos
que la media general del precio
de las acciones en la muestra
es de 47,72 y que las medias de
los precios de empresas en las
bolsas de Nueva York y de
Nasdaq son muy cercanas a la
media general.
a.) Diseñe una tabla de frecuencia agrupada que permita conocer los diferentes intervalos de clase
y las frecuencias asociada de la variable salary. Realice comentarios acerca de los resultados
obtenidos en la tabla.
La tabla de frecuencia
agrupada nos muestra que
hay una “tendencia central”
en el intervalo que va de los
$100 mil a los $120 mil dólares
el cual agrupa la mayor
cantidad de profesores,
seguido por los intervalos
inmediatamente superior
($120 mil - $140 mil) e
inmediatamente inferior ($80
Ilustración 14: Tabla de frecuencia agrupada de la variable salary
mil – $100 mil).
b.) Realice un estudio preliminar de las variables de interés en la base de dato a partir de las
diferentes funciones que suministra R para resúmenes parciales, tales como: base::summary(),
DescTools::Abstract(), psych::describe() y Hmisc::describe().
Al ejecutar la función abstract, podemos observar que la base está compuesta por 397 docentes,
que todos los registros están completos; que la base tiene 6 variables 3 de las cuales son
categóricas (rango, disciplina y sexo) y 3 de las cuales son continuas (años de servicio, años con
doctorado y salario).
Con respecto a las variables continuas, vemos que la media y la mediana del ingreso están dentro
del intervalo ($100 mil - $120 mil), lo cual es consistente con lo visto en el punto anterior (1.3-a),
encontramos que el salario va desde los $57 mil a los $231 mil dólares (por periodos de 9 meses),
así mismo encontramos que los docentes tienen entre 0 y 60 años de servicio con promedio de 17
años, y que tienen entre 1 y 56 años de haberse doctorado, con un promedio de 22 años.
La función describe nos permite ver que las variables continuas tienen asimetrías positivas, es
decir están sesgadas hacia la izquierda, presentan una mayor concentración en los valores más
bajos.
Al realizar la prueba de
asimetría (skewness.norm de la
biblioteca normtest) para
verificar la normalidad
encontramos que el estadístico
T toma el valor de 0,712 lo que
indica un sesgo moderado a la
izquierda.
Ilustración 19: Histograma Salarios con la dnorm superpuesta
El gráfico de densidad de la
variable salarios, muestra el sesgo con mayor claridad.
Propondría una distribución Gamma, con media en 113.708 (la media de salary) y escala de 7.000
(la escala la propuse arbitrariamente para superponer la distribución sobre el histograma).
Como se puede ver en la ilustración 22, al comparar la distribución Gamma (línea negra) con la
distribución Normal (línea roja) vemos que la Gamma es levemente más sensible al sesgo que
presenta la variable.
d.) Realice una comparación entre el histograma de los salarios de las docentes mujeres y docentes
hombres. ¿Existen diferencias significativas en termino de medidas de centralidad y dispersión?,
haga comentarios al respecto de acuerdo a la información que le suministra la tabla a
continuación.
Los histogramas y la tabla de estadísticos también nos muestran que la dispersión con respecto a
los salarios es mayor para los hombres que para las mujeres. Llama la atención que la totalidad de
mujeres de la muestra están agrupadas en salarios por debajo de los $161 mil mientras que el
salario de los hombres puede llegar a $231 mil.
e.) Observe las líneas de código a continuación, ejecútelas y por supuesto interprete el resultado
obtenido. library(car); Salaries; attach(Salaries) Salaries[sex == "Male", ]; salarioH <-
Salaries[sex == "Male", 6]; salarioH De a conocer al menos tres variantes diferentes en la
plataforma R de la última línea, en la cual se lleve a cabo la misma tarea que realiza el código
anterior.
Ilustración 26: Gráfico de Pareto, spineplot, Fan-plot y diagrama circular en 3d de la variable RANK
Lo que los gráficos anteriores nos dan a conocer de distintas formas es que la categoría Professor
es la predominante en la variable Rank, las dos categorías siguientes (profesor asociado y profesor
asistente) tienen tamaños muy similares.
El spinplot construido contra la variable discipline, muestra que en la categoría Profesor hay una
distribución igualitaria entre aquellos que se dedican a disciplinas teóricas (A) y aquellos que se
dedican a disciplinas aplicadas (B), no ocurre así con los profesores asociados y asistentes los
cuales tienen un sesgo hacia disciplinas aplicadas.
g.) Existe diferencia significativa entre los salarios de los docentes con cargo de profesor asociado,
profesor asistente y profesor. Diseñe un diagrama Stripchart, un Box–plot con notch y un Violin–
plot para llevar acabo tal comparación, de ser necesario utilizar medidas estadísticas de resumen
tanto de centralidad como de dispersión.
h.) Es posible asumir que los docentes de disciplinas teóricas tienen mejor salario que aquellos de
trabajan en ciencias aplicadas. ¿Que elementos estadísticos utilizaría para validar o refutar tal
supuesto?
Fuente: https://www.datanalytics.com/libro_r/igualdad-de-medias-y-t-test.html
i.) Utilice la gráfica de comparación de factores para emitir conclusiones parciales de acuerdo a las
variables categóricas que hacen parte del estudio.
j.) Encontrar los intervalos en el que se pueda garantizar que se encuentra por lo menos el 65 %, 72%
y 87% de los salarios de los docentes dados a conocer en la muestra, utilice una variable
categórica para discriminar. Emita comentarios.
Ilustración 34: Ejemplos de histogram() y bwplot() para las variables disciplina y rango con respecto al
salario
Utilizamos las funciones histogram() y bwplot() para validar dos relaciones que habíamos descrito
en ítems anteriores: El comportamiento del salario con respecto al rango y el comportamiento del
salario con respecto a la disciplina de estudio.
Vemos que los bwplot son similares a los boxplot ya construidos en ítems anteriores y nos
confirman que las medias de los salarios para las disciplinas A y B son muy similares mientras que
en el caso del rango, la media (y dispersión) de los salarios de los profesores es significativamente
mayor que en los asociados y asistentes.
Los histogramas (que no habíamos construido hasta ahora) nos permiten sacar algunas
conclusiones sobre la distribución de las variables que no habíamos observado, por ejemplo que
la variable categórica “Professor” pese a tener mayor dispersión es más simétrica con respecto a
la media que los otros dos grupos y que asimismo, que la variable disciplina A (teóricas) con
respecto al salario está más sesgada a la izquierda que las disciplinas aplicadas.
l.) ¿Que utilidad le brinda usted la gráfica de interacción y la gráfica de parcela de diseño para
ilustrar características de las variables de interés en la base de datos? Diseñe tales gráficas y
explique lo oportuno de las mismas.
Las ilustraciones 35 y
36 están ambas
construidas con
respecto a la media
del salario.
La parcela de diseño
nos permite
identificar
rápidamente las
diferencias de las
medias de las
distintas variables
categóricas y su
posición con
respecto a la media
general.
Así podemos
evidenciar si la
tendencia
inicialmente
identificada de una
variable categórica
con respecto al
salario (por ejemplo
el rango) se ve más
marcada o, al
contrario,
“suavizada” al Ilustración 36: Parcela de diseño
discriminar por una
segunda variable categórica.
1.4 1.4 Datos panel de un estudio socio–económico en Alemania
La base de datos cuenta con un total de 675 observaciones de 12 variables, de las cuales 5 son
variables categóricas, 5 son variables numéricas discretas y 2 son variables numéricas continuas.
Variables categóricas:
La ilustración 37 nos muestra una segmentación de las variables categóricas que nos permite ver
que aproximadamente el 40% de los niños encuestados asistían al Gymnasium2 mientras que un
30% de los niños asistía a Hautschule3 y otro 30% asistía a Realschule4.
Un 80% de los niños encuestados vivían en hogares que estaban en cabeza de un matrimonio. La
muestra está compuesta aproximadamente en partes iguales por niños y niñas, cerca del 45% de
los encuestados afirmó que en su hogar la madre no tenía empleo, un 40% afirmó que la madre
tenía un empleo parcial y solo un 15% afirmó que tuviera un empleo de tiempo completo.
2
Escuela de énfasis mixto
3
Escuela de énfasis técnico
4
Escuela de énfasis académico
Ilustración 38: Los encuestados provenían de diferentes estados, como se muestra en el
dotchart
Variables discretas:
Variables continuas:
Con respecto a las variables continuas tenemos los años de educación de la madre (especialmente
concentrados entre los 10 y los 12 años de educación) y el ingreso del hogar que tiene media entre
los $50 mil y los $100 mil5
5
La moneda es el marco alemán, probablemente.
b.) Considere la variable income que define los ingresos del hogar en la base de datos. A partir de
este vector, diseñe un ciclo con el comando for en el cual; de ´este vector income se obtengan
10000 muestras cada una de ellas de tamaño 170 y a cada una de estas muestras determinarle: ¯y,
Mediana, Mg y Mar. Hacer los histogramas comparativos, con los polígonos de frecuencia y la
distribución normal superpuesta con la estimación de parámetros µ y σ proveniente de cada uno
de los vectores que contiene las 10000 estimaciones de Medias, Medianas, Media geométrica y
Media armónica. Quizás sea pertinente considerar la función en R: sample(1:100, 70, replace = T);
sample(1:100, 70, replace = F) Observe los resultados e interprete y utilice la función sample()
para diseñar el ciclo.
El grafico muestra los resultados obtenidos en el ejercicio, llama la atención que las medias de las
10.000 muestras, así como las medias armónicas de las 10.000 muestras se distribuyen de acuerdo
a la distribución normal con media en u y desviación estándar s. No ocurre así con la media
geométrica ni con la mediana de las 10.000 muestras, las cuales adoptan distribuciones
multimodales.
c.) Aunque la base de datos GSOEP9402, dispone de gran variedad de información ya sea continua
y categórica. En ocasiones tal cantidad de información no es suficiente para que el estadístico
descubra relaciones implícitas que pueden describir el comportamiento intrínseco de las
variables con las cuales se dispone. Por ejemplo, en el caso de interés una pregunta pertinente
es; si los ingresos del hogar están asociados con el nivel de educación en años de la madre. En la
base de datos GSOEP9402 las variables income y meducation son ambas continuas. ¿cómo se
podría reescribir las características de la variable meducation de tal manera que sea definida
como un factor con los niveles dados por los intervalos que se obtienen de:
quantile(meducation) Posterior de haber hecho la conversi´on7 de la variable meducation a un
factor. Diseñe un Box–plot y violín–plots en el cual se asocie la variable income con los distintos
niveles del nuevo factor meducation. Emita comentarios al respecto y concluya. ¿Hay impacto
en los ingresos del hogar de acuerdo a los años de educación ha recibido la madre?
Al ejecutar la función abstract, podemos observar que la base está compuesta por 675
estudiantes, que todos los registros están completos; que la base tiene 12 variables 5 de las cuales
son categóricas (escuela, estado civil, genero, empelo de la madre y estado o region) 5 son
variables numéricas discretas (niños por familia, año de encuesta, orden de nacimiento, año de
nacimiento y tamaño del hogar) y 2 son variables numéricas continuas(años de educación de la
madre e ingresos del hogar).
Al ejecutar la función summary, podemos ver un panorama más completo de la distribución de las
variables. Con respecto a las variables categóricas podemos ver que en la selección de la muestra
de genero están casi igual tanto en la muestra de niños como de niñas la diferencia es mínima, la
mayoría de los niños están en un hogar en donde sus padres están casados, en cuanto a si la madre
trabaja o no la mayoría de las madres de los estudiantes si trabajan sea de tiempo parcial o
completo, también notamos que la mayoría de los estudiantes encuestados vivian en los estados
de la antigua Alemania occidental y por ultimo la seleccion de la escuela de los estudiantes la
mayoría de los estudiantes están concentrados en las escuelas básicas y medias.
Con respecto a las variables numéricas discretas en promedio hay 2.5 niños por hogar, la mayoría
de los hogares esta compuesto por 4 integrantes en promedio.
Con respecto a las variables numéricas continuas podemos decir que el promedio de ingresos del
hogar de los estudiantes está en $71.311 marcos alemanes pero notamos que el ingreso mas bajo
es de $ 1.248 marcos alemán, en el cual hacemos una inferencia de que probablemente ese
estudiante provenga de uno de los estados de la antigua Alemania oriental teniendo en cuenta
que la encuesta se empezó a realizar en el año 1994 habiendo pasado tan solo 5 años de la caída
del muro de Berlín por lo que aun hay hogares que a esa fecha posiblemente todavía no hayan
superado las consecuencias que dejo el antiguo modelo económico socialista que imperaba en
esa parte del país antes de la caída del mundo de Berlín; también notamos que el ingreso mas alto
en el hogar de un estudiante es $ 258.341 lo que nos permite inferir que ese estudiante proviene
de uno de los estados de la antigua Alemania occidental que adopto un modelo capitalista, y que
además quizás sea hijo de un algún reconocido empresario o gerente de una importante compañía
del país.
Continuando con nuestro análisis de la base de datos GSOEP 9402 aquí mostramos un análisis
importante entre la variable numérica años de educación de la madre y el factor categórico
escuela en el cual se establece un relación directamente proporcional entre los años de educación
que tiene la madre del niño y la influencia que esta ejerce en la calidad educativa del niño al
aumentar la probabilidad de ingresar en una mejor escuela en este caso Gymnasium y entre menos
años educativos tenga la madre del estudiante, mas alta la probabilidad de que el niño estudie en
una escuela de enseñanza básica en este caso Hauptschule.
Ilustración46:Grafico
En la siguiente ilustración podemos notar los diferentes tipos de relación entre las diferentes
variables tanto categóricas como numéricas y como estás afectan la escuela en donde estudiara
el niño,
Anteriormente ya habíamos analizado los años de educación de la madre, ahora analizaremos las
siguientes variables:
Ingresos del hogar vs Escolaridad: notamos en el grafico que entre mayor sean los ingresos del
hogar mayor es la probabilidad de que el niño estudie en una escuela de prestigio puesto que
tienen un mayor poder adquisitivo para pagar un buen colegio en tanto que si los ingresos son
bajos el niño estudiara en una escuela de educación básica.
Tamaño del hogar vs Escolaridad: notamos en el grafico que entre mas integrantes tenga el hogar
mayor es la probabilidad de que el niño estudio en una escuela básica, puesto que hay mayores
gastos entre los diversos integrantes lo que reduce las posibilidades de que el niño reciba una
buena educación en un colegio de prestigio.
Empleo de la madre vs Escolaridad: notamos que las madres de los niños que no trabajan
aumentan la probabilidad de que sus hijos estudien en un colegio de prestigio y reciban una buena
educación quizás haya que analizar algún factor cultural de Alemania que nos indique que las
madres que no trabajan es porque sus maridos ganan muy bien por ende sus hijos reciben una
buena educación y ellas no tienen necesidad de trabajar, pero esto seria en otro estudio donde
consideremos este factor cultural de este país.
Orden de nacimiento Vs Escolaridad: notamos en este grafico que los niños que nacen de primero
en el seno de un hogar tienen mas probabilidad de recibir una buena educación en un colegio de
prestigio que los que nacen de ultimo puesto que entre mas integrantes se vayan sumando al
hogar mas aumentan los gastos por ende el dinero no alcanza para que pueda estudiar en una
escuela de prestigio.
a.) ¿Cuál es el pronóstico para el mes de junio empleando un promedio móvil de tres meses?
El pronostico para junio sería igual al promedio de los meses marzo, abril y mayo, es decir
(900 + 820 + 910)
= 876,67
3
b.) A una variación de esta técnica se le conoce como promedios móviles ponderados. La
ponderación permite que al calcular el pronóstico se le dé más importancia a los datos recientes
de la serie de tiempo. Por ejemplo, en un promedio móvil de tres meses a los datos que tienen
un mes de antigüedad se le da 3 como peso, 2 a los que tienen dos meses de antigüedad y 1 a los
que tienen un mes. Con los datos dados a conocer en el cuadro (3), calcule el pronóstico para
junio usando promedios móviles de tres meses a partir de ponderaciones.
De acuerdo a la definición dada de la media móvil ponderada, el pronóstico para la demanda del
mes 6 es una función (una media ponderada) de la demanda registrada en los meses 3, 4 y 5.
El pronóstico para el mes 7 es una función de la demanda (estimada) del mes 6 que a su vez es
una función de la demanda de los meses 3,4 y 5.
Podemos decir entonces que si 𝑦𝑛 es la demanda del producto pronosticada para determinado
mes, entonces:
𝑦6 = 𝑓(𝑦3 , 𝑦4 , 𝑦5 )
𝑦7 = 𝑓(𝑓(𝑦3 , 𝑦4 , 𝑦5 ))
𝑦8 = 𝑓(𝑓(𝑓(𝑦3 , 𝑦4 , 𝑦5 )))
3 2 1
𝑦6 = 𝑦5 + 𝑦4 + 𝑦3 = 878,3333
6 6 6
3 2 1 7 4 1
𝑦7 = 𝑦6 + 𝑦5 + 𝑦4 = 𝑦5 + 𝑦4 + 𝑦 = 874,1667
6 6 6 12 12 12 3
3 2 1 45 20 7
𝑦8 = 𝑦7 + 𝑦6 + 𝑦5 = 𝑦5 + 𝑦4 + 𝑦3 = 884,0278
6 6 6 72 72 72
Lo que podemos ver es que con una base de 5 meses y elaborando medias ponderadas de los
últimos 3 meses, el pronóstico para el mes 5+n (o el pronóstico número n) se puede expresar
también como una media ponderada de los meses 3, 4 y 5.
Si repetimos el ejercicio unas cuantas veces (es decir proyectamos no solo 3 meses sino al menos
12 meses) podemos ver que los pronósticos convergen a 882.
Así como los pronósticos de la demanda para los meses 6, 7 y 8 son funciones de los meses 3, 4 y
5, la media estimada (pronosticando con esta metodología) para los meses 6, 7 y 8 también se
puede expresar como una función de las observaciones de los 5 periodos base.
7 8 9
𝑦1 +𝑦2 + 𝑦3 + 𝑦4 + 𝑦5
6 6 6
𝜇6 = =843,05
6
15 20 25
𝑦1 + 𝑦2 + 𝑦 + 𝑦 + 𝑦
𝜇7 = 12 3 12 4 12 5 = 848,21
7
97 140 195
𝑦1 +𝑦2 + 𝑦 + 𝑦 + 𝑦
72 3 72 4 72 5
𝜇8 = =852,59
8
Recurriendo más a la observación que a la demostración matemática, podemos ver que las sumas
que dan origen a las estimaciones de los periodos 𝑦𝑛 así como de las respectivas medias
𝜇𝑛 convergen a 882 en la medida que n se hace más grande.
Se puede explicar en el caso de la media que en la medida que agregamos n observaciones que
tienden a 882, la media también se va a acercar (aunque más lentamente que el pronostico 𝑦𝑛 a
882. Lo mismo ocurrirá con la mediana, la cual tenderá a 882 en la medida que agreguemos
observaciones que tienden a 880.
Estas estimaciones son coherentes con lo sustentado, la media tiende a 882 y la mediana tiende a
0.
d.) Desde su percepción; ¿Qué tipo de problema puede manifestar este tipo de procedimiento
estadístico para hallar pronósticos de una variable de interés?
Realice una consulta en un texto de estadística en el cual se dé a conocer las características de los
siguientes mecanismos de muestreo
Supongamos que de la población total de empresas formales del país (aquellas que están registradas ante
el RUES) quiero seleccionar una muestra representativa de 100 empresas para analizar la variación en
ventas durante el año 2020.
Para el caso del ejemplo, si tomo todos los NIT de la base RUES, los incluyo en un vector,
selecciono 100 aleatoriamente con ayuda de Excel o R y aplico la encuesta a las empresas
cuyos NIT resultaron seleccionados.
b.) Muestreo ponderado.
Es aquel en el que aplico más peso a ciertas variables para equilibrar los resultados del
experimento. Por ejemplo, la base RUES cuenta con muy pocas empresas de los departamentos
del sur del país (Amazonía, Caquetá, Guaviare), por lo que puedo optar por aumentar el peso de
estos elementos dentro de la muestra para tener un resultado más representativo de todo el país.
Por ejemplo, podría dividir la base RUES en los 3 macro sectores de la economía (comercio,
industria y servicios) y seleccionar 33 o 34 empresas de cada sector.
Número de inicio: El investigador selecciona un número entero que debe ser menor al número
total de individuos en la población. Este número entero corresponderá al primer sujeto.
Intervalo: El investigador elige otro número entero que servirá como la diferencia constante entre
dos números consecutivos en la progresión. El número entero se selecciona típicamente de modo
que el investigador obtenga el tamaño de la muestra correcto.
Por ejemplo, de las 100 empresas que componen la muestra de la base RUES puedo seleccionar
10 empresas cuyo NIT finalice en 0, 10 empresas cuyo NIT finalice en 1, 10 empresas cuyo NIT
finalice en 2 y así sucesivamente hasta llegar a 9 y completas las 100 empresas.
Por ejemplo, supongamos que mi capacidad para aplicar la encuesta es limitada y solamente
puedo encuestar empresas en Cúcuta y en Santa Marta, en ese caso, en la Base RUES debo
seleccionar 50 empresas de la cámara de comercio de Cúcuta y 50 empresas de la cámara de
comercio de Santa Marta para el Magdalena y aplicarles la encuesta.
Fuentes: OTZEN, T. & MANTEROLA C. Técnicas de muestreo sobre una población a estudio. Int. J.
Morphol., 35(1):227-232, 2017. (disponible en: https://scielo.conicyt.cl/pdf/ijmorphol/v35n1/art37.pdf)
Para poder realizar un muestreo aleatorio simple se requiere la utilización de números aleatorios o
números pseudoaleatorios. Por lo tanto, es necesario comprender el concepto mismo que encierran estos
números y como generarlos. Realice una consulta en el cual se dé a conocer las características de tales
números, ¿Qué principio utilizan los softwares tales como R, Python o Julia para determinar este conjunto
de números?
En algunos textos académicos se pueden encontrar muchas propiedades que ayudan a definir los números
aleatorios, en este caso escogí dos propiedades porque me parecen sencillas.
Un número aleatorio es aquel que cumple con las dos siguientes propiedades: