L’apprentissage automatique a trouvé ses applications dans de nombreux domaines intéressants au cours de ces années. Apprivoiser le marché boursier est l’un d’entre eux. J’envisageais de m’y essayer depuis un certain temps déjà ; principalement pour solidifier ma connaissance pratique des LSTM. Et finalement, j’ai terminé le projet et assez excité de partager mon expérience.
Je vais écrire sur mon expérience sur une série de blogs. Le but de cette série n’est pas d’expliquer les bases des concepts de LSTM ou d’apprentissage automatique. Par conséquent, je vais supposer que le lecteur a commencé son voyage avec l’apprentissage automatique et a les bases comme Python, la familiarité avec SkLearn, Keras, LSTM, etc. La raison en est qu’il existe déjà d’excellents articles sur des sujets tels que « Comment fonctionnent les LSTM », rédigés par des personnes beaucoup plus qualifiées pour expliquer les mathématiques. Mais je partagerai des liens vers de tels articles chaque fois que j’aurai l’impression que des connaissances de base font défaut. Il existe de nombreux articles qui expliquent comment prédire les cours de la bourse à partir d’un ensemble de données, mais la plupart des auteurs ne révèlent/expliquent pas comment ils sont parvenus à cette configuration particulière d’un réseau neuronal ou comment ils ont sélectionné cet ensemble particulier d’hyperparamètres. Le but réel de cet article est donc de partager ces étapes, mes erreurs et certaines étapes que j’ai trouvées très utiles. En tant que tel, cet article n’est pas limité au problème de prédiction du prix des actions.
Voici les choses que nous allons examiner :
Lire et analyser les données. (Pandas)
Normaliser les données. (SkLearn)
Conversion des données en séries temporelles et problème d’apprentissage supervisé.
Création de modèle (Keras)
Réglage fin du modèle (dans le prochain article)
Entraînement, prédiction et visualisation du résultat.
Tips &outils que j’ai trouvé très utiles (dernier article de la série)
Veuillez noter que ce premier article parle des étapes de prétraitement et des terminologies des LSTM. Si vous êtes assez confiant dans ces étapes, vous pouvez passer à l’article suivant.
Commençons !
Lecture et analyse des données
J’utiliserai les données historiques du cours des actions de GE pour ce post. Vous pouvez trouver les données dans mon site kaggle ici. Je ne me souviens pas de la source des données puisque je les avais téléchargées il y a longtemps. Nous pouvons lire les données dans le cadre comme indiqué ci-dessous :
Comme vous pouvez le voir, il y a environ 14060 éléments, chacun représentant les attributs boursiers d’un jour pour la société. Voyons comment cela se présente sur un graphique :