Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Resumen
El indice S&P500 que concentra las 500 empresas con mayor capitalización de mercado es un marcador de
referencia en la principal Bolsa de Valores del mundo como es Wall Street y para muchos analistas financieros
el termómetro de la economía norteamericana. Apple que es una de las empresas de tecnología más importantes
del mundo forma parte de este conjunto de empresas que hacen vida en este indice mediante el comportamiento
de sus acciones, se pretende mediante el siguiente estudio analizar que factores son determinantes en el
comportamiento de los precios de cierre para Apple, para ello se dispone de los datos históricos descargados de
la página web Yahoo Finanace para el periodo 1990 - 2022. Los resultados de la aplicación de un Modelo de
Machine Learning (específicamente un modelo de regresión múltiple) permitió observar factores determinantes
como los precios de apertura, máximos, mínimos y volumen de acciones tranzadas en este mercado son factores
que inciden en el comportamiento de los precios de cierre para esta empresa.
Abstract
The S&P500 index, which concentrates the 500 companies with the largest market capitalization, is a reference
marker in the main Stock Market in the world, such as Wall Street, and for many financial analysts, the
thermometer of the North American economy. Apple, which is one of the most important technology companies
in the world, is part of this group of companies that make a living in this index through the behavior of its
shares, it is intended through the following study to analyze which factors are determinant in the behavior of
prices closing date for Apple, for which historical data is available downloaded from the Yahoo Finance website
for the period 1990 - 2022. The results of the application of a Machine Learning Model (specifically a multiple
regression model) allowed us to observe determinant factors such as the opening prices, maximums, minimums
and volume of shares traded in this market are factors that affect the behavior of the closing prices for this
company.
III. Metodología/ Marco aplicativo
I. Introducción Los mercados bursátiles son una fuente inagotable de
información con respecto al comportamiento de los
Muchos países del mundo giran su entorno activos financieros que ahí se tranzan, en la
económico en torno a mercados financieros, entre actualidad se dispone de plataformas muy robustas
ellos el mercado de valores donde el mismo tiene una que recogen esta gran cantidad de datos y la ponen a
alta incidencia en el crecimiento económico de disposición de usuarios habidos de analizarlos para
muchos de ellos. Entre estos mercados destaca Wall generar beneficios, ahora bien, el dato per se no
Street que dicta prácticamente la dinámica de la arroja ningún tipo de información relevante, se hace
economía norteamericana y las distorsiones que necesario entonces contar con capacidad de cómputo
puedan ocurrir en el mismo tiene una incidencia en el y algoritmos eficientes que permitan detectar estos
resto de los mercados internacionales. patrones del activo de interés. Los algoritmos de
Muchas empresas cotizan en la Bolsa de Valores de Machine Learning han ganado gran popularidad en la
Wall Street en busca de obtener los mejores comunidad financiera ya que pueden aportar
dividendos de sus acciones, las mismas son soluciones factibles en este sentido, estos algoritmos
agrupadas en índices que permiten ver el provenientes de la rama de la Inteligencia Artificial
comportamiento esta acciones en las operaciones se encargan de generar algoritmos que tienen la
diarias, el índice S&P500 es precisamente uno de capacidad de aprender y no tener que programarlos
tantos índices bursátiles pero el mismo tiene un gran de manera explícita. El inversionista no tendrá que
particularidad, en el cotizan las 500 empresas con sentarse a programar por horas tomando en cuenta
mayor capitalización de mercado en EEUU, la todos los escenarios posibles ni todas las excepciones
empresa de tecnología Apple fundada por el fallecido posibles. Lo único que hay que hacer es alimentar el
Steve Jobs es una de ellas y es parte integrante dentro algoritmo con un volumen gigantesco de datos para
de este indicador, se pretende entonces estudiar que el algoritmo aprenda y sepa qué hacer en cada
mediante un algoritmo de Machine Learning el uno de estos casos.
comportamiento de los precios de cierre de esta El abanico de algoritmos disponibles es bastante
empresa a través de posibles factores determinantes extenso, muchos de estos provenientes de modelos
como son los precios de apertura, máximos, mínimos estadísticos y matemáticos, en el caso particular de
y volumen de acciones negociadas en el mercado los modelos estadísticos los modelos paramétricos de
tomando como horizonte de investigación el periodo tipo multivariente son una solución viable para
1990 – 2022. estudiar factores determinantes que pudiesen afectar
II. Problema o caso de estudio el entorno de un activo de interés en el mercado, los
modelos de regresión múltiple son uno de ellos. En
Muchos inversionistas en las principales bolsas de este modelo se busca explicar el comportamiento de
valores constantemente buscan posicionarse en el una variable dependiente en términos de un conjunto
mercado con el único objetivo de sacar ventaja en los de variables que se definen como variables
mercados de valores, sin embargo esto no es tarea explicativas, el peso que tiene c/u de estas variables
fácil ya que estos mercados son especulativos lo que en la explicación de la variable objetivo viene
se traduce en volatilidades de los precios de las determinada por parámetros que deben estimarse
acciones, se hace necesario entonces un conocimiento normalmente por Mínimos Cuadrados Ordinarios
del entorno en periodos determinados a través de MCO. La formulación matemática del modelo viene
noticias, páginas web especializadas en inversiones expresada mediante la siguiente relación matricial.
(Yahoo Finance, Google Finance, Blomberg) por
nombrar algunas, esto ayuda a tener una panorámica
del mercado, pero esto de por si no es suficiente, en Y = Xβ+ ε
muchos casos lecturas de indicadores financieros así
como estudios técnicos del comportamiento del Donde: Y es un vector de orden nx 1 que contiene
precio de estos activos son parte complementaria en los valores de la variable dependiente, X es una
estos análisis, ahora bien, muchos indicadores matriz de orden nxr +1 contentiva de los valores de
técnicos tradicionales se sustentan en el las variables explicativas (matriz de diseño), β de
comportamiento univariante del precio a través de orden rx 1 es el vector de parámetros del modelo y ε
estudios de promedios móviles, MACD, bandas de
de orden nx 1 es la perturbación aleatoria o término
Bollinger entre tantos otros, se requiere entonces la
creación de herramientas técnicas que evalúen del error del modelo.
mediante modelos estadísticos el entorno del Para que los resultados de la regresión sean
comportamiento del precio, se pretende mediante la “confiables” (confiable es una forma coloquial de
investigación brindar mediante una técnica de tipo referirse a: insesgados, es decir que sus resultados
multivariante a los inversionistas de las acciones de sean parecidos a los reales; y óptimos, es decir que su
Apple soluciones factibles para fijar mejores posturas varianza sea mínima) es necesario que:
en Wall Street.
2
a) La relación entre las variables sea lineal. Ser lineal Python es un lenguaje de programación ampliamente
no significa que forzosamente tenga que ser una línea utilizado en las aplicaciones web, el desarrollo de
recta sino también que pueda ser lineal con alguna software, la ciencia de datos y el machine learning
transformación. (ML). Los desarrolladores utilizan Python porque es
eficiente y fácil de aprender, además de que se puede
b) Las perturbaciones (es decir los efectos
ejecutar en muchas plataformas diferentes. El
provocados aleatoriamente o por variables no
software Python se puede descargar gratis, se integra
incluidas en el modelo) deben ser: de media cero,
bien a todos los tipos de sistemas y aumenta la
homocedásticas y no autocorrelacionadas. Se suelen
velocidad del desarrollo.
resumir estos bajo la denominación de “esfericidad”
de los residuos.
IV. Presentación de resultados
La popularidad de estos algoritmos hoy día ha La aplicación del modelo de Machine Learning tanto
crecido a pasos agigantados gracias a las múltiples en Python como en R se describe a continuación.
herramientas computacionales donde se pueden
manipular eficientemente estas grandes bases de Resultados en R
datos, en el caso particular de esta investigación se Previo a la aplicación del modelo de regresión
hacen uso de 2 softwares de amplia demanda en el múltiple se hace necesario conocer mediante medidas
estudio de Data Science como son el sistema de tendencia central, posición y dispersión la
estadístico R Project y Python, se hace una breve composición de los datos de las distintas variables a
descripción de los mismos para conocer sus ser consideradas en la estimación de los precios de
características. cierre de Apple, el siguiente reporte mediante la
función "describe" permite observar y analizar estas
medidas, los resultados se muestran a continuación.
El Sistema Estadístico R
R es un lenguaje y entorno de programación, creado
Cuadro 1. Análisis descriptivo de los datos
en 1993 por Ross Ihaka y Robert Gentleman del
Departamento de Estadística de la Universidad de
Auckland, cuya característica principal es que forma
un entorno de análisis estadístico para la
manipulación de datos, su cálculo y la creación de
gráficos. En su aspecto R puede considerarse como
otra implementación del lenguaje de programación S,
con la particularidad de que es un software GNU,
General Public Licenc (conjunto de programas Fuente: Cálculos propios sistema estadístico R
desarrollados por la Free Software Foundation) es
decir, de uso libre.
Los estadísticos muestran que los precios promedios
El término entorno lo caracteriza como un sistema de esta empresa para las categorías apertura, cierre,
completamente diseñado y coherente de análisis de máximos y mínimos giran en torno a los 22 dólares,
datos. Como tal es muy dinámico y las diferentes sin embargo, la dispersión es bastante notoria debido
versiones no siempre son totalmente compatibles con a que los precios distan con respecto a su promedio
las anteriores. En la introducción a R no se hace en más o menos 38 dólares. La distancia entre el
mención explícitamente a la palabra estadística, sin valor mínimo y máximo es considerable
embargo, mayoritariamente se utiliza R como un registrándose valores en torno a 0.11 y 182 dólares
sistema estadístico, aunque la descripción más respectivamente; los resultados de los coeficientes de
precisa sería la de un entorno en el que se han asimetría y kurtósis reflejan que se esta en presencia
implementado muchas técnicas estadísticas. Algunas en distribuciones con niveles de sesgo.
están incluidas en el entorno base de R y otras se
acompañan en forma de bibliotecas (packages). La variable volumen tranzado de estas acciones
muestran una gran volatilidad, esto queda reflejado
Python en el rango entre el mínimo y máximo del indicador
donde el mínimo registrado es de 2396800 acciones
negociadas y un máximo de 7421640800
respectivamente.
Otro aspecto a considerar en el análisis de los datos
es lo correspondiente a las posibles correlaciones
lineales existentes entre las variables, esto es un
requisito importante antes de formular cualquier
modelo de regresión lineal, se muestra a continuación
los resultados obtenidos al aplicar un test de
correlación de Pearson a las variables estudiadas.
4
La serie de tiempo del volumen tranzado refleja una
alta frecuencia en su evolución, los picos del gráfico
corresponden a periodos donde las acciones de Apple
tuvieron gran demanda, un ejemplo de ello es el
periodo 1995 - 1999, se puede apreciar una zona de
corrección del mercado precisamente por ese
desplome del precio, esto claramente es visible para
mediados del año 2010.
Todo el análisis anterior es el preámbulo para la
definición y aplicación formal del modelo de
regresión múltiple, para ello previamente se divide la Fuente: Cálculos propios sistema estadístico R
base de datos en bases de datos entrenamiento y
prueba con 2 propósitos básicos, el primero permite
un marco de entrenamiento del modelo con una La exclusión de la variable volumen arroja p - valores
muestra aleatoria del 75% de los datos considerados, estadísticamente significativos para el resto de los
el segundo validar su capacidad predictiva con el indicadores correspondientes al precio de las acciones
restante 25% de estos datos. La estimación de los para esta empresa ya que todos los p - valores son
parámetros del modelo por MCO con la data menores del 5%, una mirada al parámetro asociado al
entrenamiento se muestra a continuación. precio máximo de este activo indica que a medida
que el mismo aumenta 1$ el precio de cierre se
incrementa a razón de 0.8776$, de hecho, es una de
Cuadro 5. Estimación del modelo saturado por MCO las variables que tiene un alto impacto sobre la
variable objetivo.
Chequeando la bondad de ajuste del modelo se puede
observar que la capacidad predictiva es de un
99.99%, esto significa que los precios de apertura,
máximos y mínimos explican en un 99.99% la
variabilidad esperada de los precios de cierre de
Apple, finalmente el error standar de los residuos
(0.3159) refleja que es un modelo con un error
bastante bajo.
La estimación anterior me permite corroborar la
Fuente: Cálculos propios sistema estadístico R precisión a nivel de los parámetros, para analizar si
las variables consideradas son efectivamente
La estimación por MCO arroja que las variables significativas se aplica un contraste lineal, los
consideradas correspondientes al precio en sus resultados son los siguientes.
distintas modalidades son estadísticamente
significativas ya que sus p - valores asociados son
menores del 5%, sin embargo, esto no ocurre con el
volumen tranzado, esto significa que dicha variable al
no ser estadísticamente significativa debe ser
excluida del modelo propuesto el cual es un modelo
saturado, la estimación del modelo depurado por
MCO se muestra a continuación.
Cuadro 7. Significancia estadística de las variables
Fuente: Cálculos propios sistema estadístico R Cuadro 1. Vista preliminar de la base de datos
6
La tabla anterior muestra los 5 primeros registros de La matriz de correlación refleja asociaciones lineales
la base de datos a tomar en consideración en la muy fuertes entre los precios de cierre así como los
investigación, en la misma se puede visualizar los precios de apertura, máximos y mínimos de este
datos correspondientes a los precios de apertura, activo, la correlación entre volumen es moderada y
cierre, mínimos y máximos, precio ajustado así como negativa, el signo entre ambas es señal de que a
el volumen de acciones tranzadas para este activo. En aumentos de volumen tranzados de estas acciones
total se dispone de una base de datos con más de disminuye el precio de cierre de estas acciones. Se
8000 registros por columna para cada uno de estos presenta a continuación el gráfico de interacciones
indicadores. Esta cantidad de datos se sistematiza a entre estas variables para analizar esa linealidad.
través de medidas estadísticas para conocer
características de interés de las variables
consideradas, los resultados se muestran en el Fig 2. Interacciones entre las variables
siguiente reporte.
V. Conclusiones
La aplicación de modelos de Machine Learning es un
campo de investigación virgen para complementar
estudios de análisis técnico en los mercados de
valores, la propuesta abordada en esta investigación
es un pequeño acercamiento a estructuras
multivariantes que pueden aportar soluciones viables
a la hora de poder fijar posiciones en el mercado con
un mínimo de riesgo.