Está en la página 1de 9

APLICACIÓN DE UN MODELO DE MACHINE LEARNING PARA

ESTIMAR LOS PRECIOS DE CIERRE DE LAS ACCIONES DE LA EMPRESA


APPLE
IVES DOMERO
CI: 10.532.595
Email: rmetricsestadística@gmail.com

Resumen

El indice S&P500 que concentra las 500 empresas con mayor capitalización de mercado es un marcador de
referencia en la principal Bolsa de Valores del mundo como es Wall Street y para muchos analistas financieros
el termómetro de la economía norteamericana. Apple que es una de las empresas de tecnología más importantes
del mundo forma parte de este conjunto de empresas que hacen vida en este indice mediante el comportamiento
de sus acciones, se pretende mediante el siguiente estudio analizar que factores son determinantes en el
comportamiento de los precios de cierre para Apple, para ello se dispone de los datos históricos descargados de
la página web Yahoo Finanace para el periodo 1990 - 2022. Los resultados de la aplicación de un Modelo de
Machine Learning (específicamente un modelo de regresión múltiple) permitió observar factores determinantes
como los precios de apertura, máximos, mínimos y volumen de acciones tranzadas en este mercado son factores
que inciden en el comportamiento de los precios de cierre para esta empresa.

Abstract

The S&P500 index, which concentrates the 500 companies with the largest market capitalization, is a reference
marker in the main Stock Market in the world, such as Wall Street, and for many financial analysts, the
thermometer of the North American economy. Apple, which is one of the most important technology companies
in the world, is part of this group of companies that make a living in this index through the behavior of its
shares, it is intended through the following study to analyze which factors are determinant in the behavior of
prices closing date for Apple, for which historical data is available downloaded from the Yahoo Finance website
for the period 1990 - 2022. The results of the application of a Machine Learning Model (specifically a multiple
regression model) allowed us to observe determinant factors such as the opening prices, maximums, minimums
and volume of shares traded in this market are factors that affect the behavior of the closing prices for this
company.
III. Metodología/ Marco aplicativo
I. Introducción Los mercados bursátiles son una fuente inagotable de
información con respecto al comportamiento de los
Muchos países del mundo giran su entorno activos financieros que ahí se tranzan, en la
económico en torno a mercados financieros, entre actualidad se dispone de plataformas muy robustas
ellos el mercado de valores donde el mismo tiene una que recogen esta gran cantidad de datos y la ponen a
alta incidencia en el crecimiento económico de disposición de usuarios habidos de analizarlos para
muchos de ellos. Entre estos mercados destaca Wall generar beneficios, ahora bien, el dato per se no
Street que dicta prácticamente la dinámica de la arroja ningún tipo de información relevante, se hace
economía norteamericana y las distorsiones que necesario entonces contar con capacidad de cómputo
puedan ocurrir en el mismo tiene una incidencia en el y algoritmos eficientes que permitan detectar estos
resto de los mercados internacionales. patrones del activo de interés. Los algoritmos de
Muchas empresas cotizan en la Bolsa de Valores de Machine Learning han ganado gran popularidad en la
Wall Street en busca de obtener los mejores comunidad financiera ya que pueden aportar
dividendos de sus acciones, las mismas son soluciones factibles en este sentido, estos algoritmos
agrupadas en índices que permiten ver el provenientes de la rama de la Inteligencia Artificial
comportamiento esta acciones en las operaciones se encargan de generar algoritmos que tienen la
diarias, el índice S&P500 es precisamente uno de capacidad de aprender y no tener que programarlos
tantos índices bursátiles pero el mismo tiene un gran de manera explícita. El inversionista no tendrá que
particularidad, en el cotizan las 500 empresas con sentarse a programar por horas tomando en cuenta
mayor capitalización de mercado en EEUU, la todos los escenarios posibles ni todas las excepciones
empresa de tecnología Apple fundada por el fallecido posibles. Lo único que hay que hacer es alimentar el
Steve Jobs es una de ellas y es parte integrante dentro algoritmo con un volumen gigantesco de datos para
de este indicador, se pretende entonces estudiar que el algoritmo aprenda y sepa qué hacer en cada
mediante un algoritmo de Machine Learning el uno de estos casos.
comportamiento de los precios de cierre de esta El abanico de algoritmos disponibles es bastante
empresa a través de posibles factores determinantes extenso, muchos de estos provenientes de modelos
como son los precios de apertura, máximos, mínimos estadísticos y matemáticos, en el caso particular de
y volumen de acciones negociadas en el mercado los modelos estadísticos los modelos paramétricos de
tomando como horizonte de investigación el periodo tipo multivariente son una solución viable para
1990 – 2022. estudiar factores determinantes que pudiesen afectar
II. Problema o caso de estudio el entorno de un activo de interés en el mercado, los
modelos de regresión múltiple son uno de ellos. En
Muchos inversionistas en las principales bolsas de este modelo se busca explicar el comportamiento de
valores constantemente buscan posicionarse en el una variable dependiente en términos de un conjunto
mercado con el único objetivo de sacar ventaja en los de variables que se definen como variables
mercados de valores, sin embargo esto no es tarea explicativas, el peso que tiene c/u de estas variables
fácil ya que estos mercados son especulativos lo que en la explicación de la variable objetivo viene
se traduce en volatilidades de los precios de las determinada por parámetros que deben estimarse
acciones, se hace necesario entonces un conocimiento normalmente por Mínimos Cuadrados Ordinarios
del entorno en periodos determinados a través de MCO. La formulación matemática del modelo viene
noticias, páginas web especializadas en inversiones expresada mediante la siguiente relación matricial.
(Yahoo Finance, Google Finance, Blomberg) por
nombrar algunas, esto ayuda a tener una panorámica
del mercado, pero esto de por si no es suficiente, en Y = Xβ+ ε
muchos casos lecturas de indicadores financieros así
como estudios técnicos del comportamiento del Donde: Y es un vector de orden nx 1 que contiene
precio de estos activos son parte complementaria en los valores de la variable dependiente, X es una
estos análisis, ahora bien, muchos indicadores matriz de orden nxr +1 contentiva de los valores de
técnicos tradicionales se sustentan en el las variables explicativas (matriz de diseño), β de
comportamiento univariante del precio a través de orden rx 1 es el vector de parámetros del modelo y ε
estudios de promedios móviles, MACD, bandas de
de orden nx 1 es la perturbación aleatoria o término
Bollinger entre tantos otros, se requiere entonces la
creación de herramientas técnicas que evalúen del error del modelo.
mediante modelos estadísticos el entorno del Para que los resultados de la regresión sean
comportamiento del precio, se pretende mediante la “confiables” (confiable es una forma coloquial de
investigación brindar mediante una técnica de tipo referirse a: insesgados, es decir que sus resultados
multivariante a los inversionistas de las acciones de sean parecidos a los reales; y óptimos, es decir que su
Apple soluciones factibles para fijar mejores posturas varianza sea mínima) es necesario que:
en Wall Street.

2
a) La relación entre las variables sea lineal. Ser lineal Python es un lenguaje de programación ampliamente
no significa que forzosamente tenga que ser una línea utilizado en las aplicaciones web, el desarrollo de
recta sino también que pueda ser lineal con alguna software, la ciencia de datos y el machine learning
transformación. (ML). Los desarrolladores utilizan Python porque es
eficiente y fácil de aprender, además de que se puede
b) Las perturbaciones (es decir los efectos
ejecutar en muchas plataformas diferentes. El
provocados aleatoriamente o por variables no
software Python se puede descargar gratis, se integra
incluidas en el modelo) deben ser: de media cero,
bien a todos los tipos de sistemas y aumenta la
homocedásticas y no autocorrelacionadas. Se suelen
velocidad del desarrollo.
resumir estos bajo la denominación de “esfericidad”
de los residuos.
IV. Presentación de resultados
La popularidad de estos algoritmos hoy día ha La aplicación del modelo de Machine Learning tanto
crecido a pasos agigantados gracias a las múltiples en Python como en R se describe a continuación.
herramientas computacionales donde se pueden
manipular eficientemente estas grandes bases de Resultados en R
datos, en el caso particular de esta investigación se Previo a la aplicación del modelo de regresión
hacen uso de 2 softwares de amplia demanda en el múltiple se hace necesario conocer mediante medidas
estudio de Data Science como son el sistema de tendencia central, posición y dispersión la
estadístico R Project y Python, se hace una breve composición de los datos de las distintas variables a
descripción de los mismos para conocer sus ser consideradas en la estimación de los precios de
características. cierre de Apple, el siguiente reporte mediante la
función "describe" permite observar y analizar estas
medidas, los resultados se muestran a continuación.
El Sistema Estadístico R
R es un lenguaje y entorno de programación, creado
Cuadro 1. Análisis descriptivo de los datos
en 1993 por Ross Ihaka y Robert Gentleman del
Departamento de Estadística de la Universidad de
Auckland, cuya característica principal es que forma
un entorno de análisis estadístico para la
manipulación de datos, su cálculo y la creación de
gráficos. En su aspecto R puede considerarse como
otra implementación del lenguaje de programación S,
con la particularidad de que es un software GNU,
General Public Licenc (conjunto de programas Fuente: Cálculos propios sistema estadístico R
desarrollados por la Free Software Foundation) es
decir, de uso libre.
Los estadísticos muestran que los precios promedios
El término entorno lo caracteriza como un sistema de esta empresa para las categorías apertura, cierre,
completamente diseñado y coherente de análisis de máximos y mínimos giran en torno a los 22 dólares,
datos. Como tal es muy dinámico y las diferentes sin embargo, la dispersión es bastante notoria debido
versiones no siempre son totalmente compatibles con a que los precios distan con respecto a su promedio
las anteriores. En la introducción a R no se hace en más o menos 38 dólares. La distancia entre el
mención explícitamente a la palabra estadística, sin valor mínimo y máximo es considerable
embargo, mayoritariamente se utiliza R como un registrándose valores en torno a 0.11 y 182 dólares
sistema estadístico, aunque la descripción más respectivamente; los resultados de los coeficientes de
precisa sería la de un entorno en el que se han asimetría y kurtósis reflejan que se esta en presencia
implementado muchas técnicas estadísticas. Algunas en distribuciones con niveles de sesgo.
están incluidas en el entorno base de R y otras se
acompañan en forma de bibliotecas (packages). La variable volumen tranzado de estas acciones
muestran una gran volatilidad, esto queda reflejado
Python en el rango entre el mínimo y máximo del indicador
donde el mínimo registrado es de 2396800 acciones
negociadas y un máximo de 7421640800
respectivamente.
Otro aspecto a considerar en el análisis de los datos
es lo correspondiente a las posibles correlaciones
lineales existentes entre las variables, esto es un
requisito importante antes de formular cualquier
modelo de regresión lineal, se muestra a continuación
los resultados obtenidos al aplicar un test de
correlación de Pearson a las variables estudiadas.

Cuadro 2. Test de correlación de Pearson entre precios de cierre y apertura

Fuente: Cálculos propios sistema estadístico R

Se puede apreciar en el gráfico en la primera fila la


fuerte linealidad entre los precios en sus distintas
modalidades y la correlación negativa entre precios
Fuente: Cálculos propios sistema estadístico R de cierre y volumen la cual en términos del gráfico no
es tan evidente entre estas variables. La diagonal
principal del gráfico que muestra los histogramas de
Cuadro 3. Test de correlación de Pearson entre precios de cierre y mínimos
las variables estudiadas complemente los análisis del
cuadro 1 ya que se puede ver el grado de sesgo de
estas variables, es decir, distan mucho de poseer
características de una distribución normal.
Una vez evidenciado las correlaciones lineales entre
las variables, se hace necesario conocer el
Fuente: Cálculos propios sistema estadístico R comportamiento individual de las mismas a través de
su dinámica como series de tiempo para el periodo
1990 - 2022, los resultaos son los siguientes.
Cuadro 4. Test de correlación de Pearson entre precios de cierre y volumen

Fig 1. Series de tiempo de las variables consideradas

Fuente: Cálculos propios sistema estadístico R

Los resultados del test indican que todas las


correlaciones son estadísticamente significativas y
que todos los p - valores son menores del 5% del
nivel de significación, las correlaciones entre los
precios de cierre vs los precios mínimos y máximos
son positivas y superiorres al 90% lo que refleja el
alto grado de correlación que existe entre las mismas, Fuente: Cálculos propios sistema estadístico R
par el caso de la correlación entre precios de cierre y
Las series de tiempo de los precios de las acciones de
volumen es negativa y moderada con un 30.70%
Apple comparten una característica común en cuanto
explicando que a medida que aumenta el volumen de
a su evolución en el histórico, estas acciones
acciones tranzadas disminuye los precios de cierre de
registraron una tendencia creciente en el periodo
Apple. Otra manera de ver esto desde un punto de
1990 hasta mediados del año 2012 donde se registra
vista gráfico es a través de un gráfico de
una caída abrupta del indicador, una posible lectura
interacciones, los resultados se muestran a
de ese desplome se pudiese explicar por el
continuación.
fallecimiento de su CEO fundador Steve Jobs,
Fig 2. Interacciones entre las variables realmente el quiebre es tal que se puede hablar de 2
subperiodos dentro de la serie, el corresponde a 1990
- 2012 y 2012 - 2022 y este último caracterizado por
una profunda caída de los precios con periodos de
corrección a partir del año 2014 aproximadamente.

4
La serie de tiempo del volumen tranzado refleja una
alta frecuencia en su evolución, los picos del gráfico
corresponden a periodos donde las acciones de Apple
tuvieron gran demanda, un ejemplo de ello es el
periodo 1995 - 1999, se puede apreciar una zona de
corrección del mercado precisamente por ese
desplome del precio, esto claramente es visible para
mediados del año 2010.
Todo el análisis anterior es el preámbulo para la
definición y aplicación formal del modelo de
regresión múltiple, para ello previamente se divide la Fuente: Cálculos propios sistema estadístico R
base de datos en bases de datos entrenamiento y
prueba con 2 propósitos básicos, el primero permite
un marco de entrenamiento del modelo con una La exclusión de la variable volumen arroja p - valores
muestra aleatoria del 75% de los datos considerados, estadísticamente significativos para el resto de los
el segundo validar su capacidad predictiva con el indicadores correspondientes al precio de las acciones
restante 25% de estos datos. La estimación de los para esta empresa ya que todos los p - valores son
parámetros del modelo por MCO con la data menores del 5%, una mirada al parámetro asociado al
entrenamiento se muestra a continuación. precio máximo de este activo indica que a medida
que el mismo aumenta 1$ el precio de cierre se
incrementa a razón de 0.8776$, de hecho, es una de
Cuadro 5. Estimación del modelo saturado por MCO las variables que tiene un alto impacto sobre la
variable objetivo.
Chequeando la bondad de ajuste del modelo se puede
observar que la capacidad predictiva es de un
99.99%, esto significa que los precios de apertura,
máximos y mínimos explican en un 99.99% la
variabilidad esperada de los precios de cierre de
Apple, finalmente el error standar de los residuos
(0.3159) refleja que es un modelo con un error
bastante bajo.
La estimación anterior me permite corroborar la
Fuente: Cálculos propios sistema estadístico R precisión a nivel de los parámetros, para analizar si
las variables consideradas son efectivamente
La estimación por MCO arroja que las variables significativas se aplica un contraste lineal, los
consideradas correspondientes al precio en sus resultados son los siguientes.
distintas modalidades son estadísticamente
significativas ya que sus p - valores asociados son
menores del 5%, sin embargo, esto no ocurre con el
volumen tranzado, esto significa que dicha variable al
no ser estadísticamente significativa debe ser
excluida del modelo propuesto el cual es un modelo
saturado, la estimación del modelo depurado por
MCO se muestra a continuación.
Cuadro 7. Significancia estadística de las variables

Cuadro 6. Estimación del modelo depurado por MCO

Fuente: Cálculos propios sistema estadístico R


Los resultados del p - valor para el estadístico de
contraste F son menores del 5%, con esto se puede
concluir que las variables consideradas son
estadísticamente significativas y el modelo ajusta
hasta este nivel de análisis.
Con la formulación del modelo definitivo se hace una
proyección a 5 días dentro de la muestra aleatoria con
la base de datos de prueba y se hace un comparativo
con algunos datos de la base de datos original para
los periodos considerados, los resultados se pueden
apreciar en la siguiente salida.

Fuente: Cálculos propios sistema estadístico R


Cuadro 8. Estimación de los precios de cierre y comparativo con valores
reales.

La homocedasticidad puede ser analizada a través de


la información arrojada en el primer gráfico donde se
contrasta valores estimados del modelo vs residuos,
se puede visualizar en el gráfico la presencia de
valores atípicos en la nube, esto es clara señal de que
los residuos son heterocedasticos.
El segundo gráfico muestra que tanto ajustan los
cuantiles teóricos de los residuos a los cuantiles de
Fuente: Cálculos propios sistema estadístico R una distribución normal estandarizada, como se
puede apreciar en la gráfica la nube de puntos no
logra un buen ajuste a la recta indicativo que los
El primer cuadro corresponde a las estimaciones del
residuos del modelo no ajustan a esta distribución.
modelo por MCO y el segundo cuadro son los valores
reales. Al hacer el comparativo de las estimaciones vs
valores reales (recuadros rojos) de los precios de
Resultados en Python
cierre de Apple, se observa un excelente ajuste del
modelo, de hecho los intervalos de confianza al 95%
considerados en la estimación contienen el valor real
de este activo. Finalmente las proyecciones a 5 días De manera análoga al esquema de análisis realizado
fuera de la muestra de los precios de cierre de Apple en el sistema estadístico R se procede a realizar los
se muestran a continuación. análisis correspondientes con la implementación del
modelo de regresión múltiple en Python. Una vista
Cuadro 8. Estimación de los precios de cierre y comparativo con valores
reales.
preliminar a los datos descargados de la página web
Yahoo Finance se muestra a continuación.

Fuente: Cálculos propios sistema estadístico R Cuadro 1. Vista preliminar de la base de datos

Las estimaciones del precio de cierre a partir del


19/11/2022 indican que este indicador continuará en
un periodo de corrección ya que no se detectan
grandes distorsiones para los días considerados.

Fuente: Cálculos propios Python


Un aspecto a considerar en la robustez de un modelo
de regresión tiene que ver con los denominados
contrastes de normalidad tanto de la variable
dependiente así como los residuos, en aras de
profundizar un poco esto en el modelo propuesto se
aplica un análisis gráfico de este tipo de contraste
para su posterior análisis.

Fig 3. Contrastes de normalidad del modelo

6
La tabla anterior muestra los 5 primeros registros de La matriz de correlación refleja asociaciones lineales
la base de datos a tomar en consideración en la muy fuertes entre los precios de cierre así como los
investigación, en la misma se puede visualizar los precios de apertura, máximos y mínimos de este
datos correspondientes a los precios de apertura, activo, la correlación entre volumen es moderada y
cierre, mínimos y máximos, precio ajustado así como negativa, el signo entre ambas es señal de que a
el volumen de acciones tranzadas para este activo. En aumentos de volumen tranzados de estas acciones
total se dispone de una base de datos con más de disminuye el precio de cierre de estas acciones. Se
8000 registros por columna para cada uno de estos presenta a continuación el gráfico de interacciones
indicadores. Esta cantidad de datos se sistematiza a entre estas variables para analizar esa linealidad.
través de medidas estadísticas para conocer
características de interés de las variables
consideradas, los resultados se muestran en el Fig 2. Interacciones entre las variables
siguiente reporte.

Cuadro 2. Análisis descriptivo de los datos

Fuente: Cálculos propios Python

El reporte arrojado por este sistema al igual que R


posee medidas de tendencia central y dispersión de
los datos, cabe destacar que en este cuadro se puede
apreciar medidas de concentración, en este sentido se Fuente: Cálculos propios Python
puede apreciar en el reporte por ejemplo que un 75%
Las interacciones a pares entre el precio de cierre vs
de los precios de cierre de las acciones de Apple son
los precios de apertura, son bastantes notorias y
menores o iguales a 24.47 dólares, además se aprecia
positivas caso contrario al volumen donde esa
que un 50% del volumen tranzado es menor o igual a
relación es negativa y poca linealidad se refleja en
4.7942e+8 de acciones tranzadas mientras que el
esa relación.
restante 50% se encuentra por encima de este valor.
La estimación de los precios de cierre de Apple por
MCO se hace posible mediante la librería ScikitLearn
El análisis de correlación previo a la formulación del de Python, para ellos se divide la base de datos en sub
modelo se hace posible en Python mediante la bases de datos de entrenamiento y prueba para
generación de la matriz de correlación, los resultados evaluar las capacidades del modelo de regresión, los
son los siguientes. resultados de la estimación de los parámetros usado
la data de entrenamiento (en este caso se usó el 60%
de los datos) se muestran a continuación.
Cuadro 3. Matriz de correlación de las variables consideradas

Cuadro 4. Estimación del modelo depurado por MCO

Fuente: Cálculos propios Python

Fuente: Cálculos propios Python


Se puede apreciar en el reporte el impacto que tienen Una vez evaluado las capacidades que tiene tanto
estas variables con respecto a la variable objetivo, de Python como R puedo concluir sin lugar a dudas que
acuerdo a estos resultados y complementando lo queda mucho por estudiar a nivel de código ya que
anteriormente analizado en el gráfico de interacciones las librerías se salen de vista y dado el corto tiempo
se puede apreciar por ejemplo que a medida que utilizado en este diplomado quedan muchas cosas por
aumenta el volumen acciones tranzadas disminuye madurar.
ele precio de cierre a razón de 0.6714 dólares.

Se procede a realizar algunas proyecciones con la


data de prueba, los resultados se muestran a
continuación. VII. Referencias
[1] Kuhn,M. and Johnston, K (2013). Applied
Predictive Modeling.Springer
[2] W. McKinney. Python for Data Analysis.Oreally
Cuadro 5. Proyecciones con el modelo depurado
Media, Inc., second edition, 2017
[3] R.J.A Little and D.B.Rubin. Statistical Analysis
Fuente: Cálculos propios Python with Missing Data. John Wiley & Sons . Hoboken,
second edition, 2002
[4] G.A.F. Seber and A.J. Lee. Linear Regression
Las proyecciones muestran ligeras variaciones del
Analysis. John Wiley & Sons Hoboken, second
precio para los primeros 3 registros luego la
edition, 2003
volatilidad es significativa para periodos posteriores.
[5] S.Shalev – Shwartz and S. Ben – David.
Understanding Macchine Learning: From the theory
El cuadro 6 muestra el error cometido por el modelo to algorithms. Cambrige University Press, 2014
propuesto.
Cuadro 6. Error cometido con el modelo depurado

Fuente: Cálculos propios Python

Dado lo pequeño de este error se puede concluir que


existe un buen ajuste del modelo de regresión

Cuadro 7. Bondad del ajuste modelo depurado

Fuente: Cálculos propios Python

El valor del estadístico R2 = 99.99% indica que los


precios de apertura y el volumen en esta propuesta
explican en un 99.99% la variabilidad del precio de
cierre para Apple.

V. Conclusiones
La aplicación de modelos de Machine Learning es un
campo de investigación virgen para complementar
estudios de análisis técnico en los mercados de
valores, la propuesta abordada en esta investigación
es un pequeño acercamiento a estructuras
multivariantes que pueden aportar soluciones viables
a la hora de poder fijar posiciones en el mercado con
un mínimo de riesgo.

VI. Reflexiones finales

También podría gustarte