Predicting Stock Price with LSTM

Învățarea mașinilor și-a găsit aplicații în multe domenii interesante de-a lungul acestor ani. Îmblânzirea pieței bursiere este unul dintre ele. Mă gândeam să fac o încercare de ceva timp; mai ales pentru a-mi consolida cunoștințele de lucru despre LSTM-uri. Și, în cele din urmă, am terminat proiectul și sunt destul de încântat să împărtășesc experiența mea.

Motivație și public țintă
Citerea și analiza datelor
Normalizarea datelor
Conversia datelor în serii de timp și problema învățării supravegheate
Crearea modelului

Motivație și public țintă

Voi scrie despre experiența mea de-a lungul unei serii de bloguri. Scopul acestei serii nu este de a explica noțiunile de bază ale LSTM sau ale conceptelor de Machine Learning. Prin urmare, voi presupune că cititorul și-a început călătoria cu Machine Learning și are cunoștințe de bază precum Python, familiaritate cu SkLearn, Keras, LSTM etc. Motivul este că există deja articole excelente pe teme precum „Cum funcționează LSTM-urile?”, scrise de persoane mult mai calificate pentru a explica matematica din spatele acestora. Dar voi împărtăși linkuri către astfel de articole, ori de câte ori simt că ar putea lipsi cunoștințele de bază. Deși există o mulțime de articole care vă spun cum să preziceți prețurile acțiunilor având în vedere un set de date, de cele mai multe ori autorii nu dezvăluie/explică cum au ajuns la acea configurație specială pentru o rețea neuronală sau cum au selectat acel set special de hiperparametri. Așadar, scopul real al acestui articol este de a împărtăși astfel de pași, greșelile mele și unii pași care mi s-au părut foarte utili. Ca atare, acest articol nu se limitează la problema Predicției prețului acțiunilor.

Iată care sunt lucrurile pe care le vom analiza :

Citerea și analiza datelor. (Pandas)
Normalizarea datelor. (SkLearn)
Convertirea datelor în serii de timp și problema învățării supravegheate.
Crearea modelului (Keras)
Reglarea fină a modelului (în articolul următor)
Învățarea, predicția și vizualizarea rezultatului.
Tips & instrumente care mi s-au părut foarte utile (ultimul articol din serie)

Rețineți că acest prim articol vorbește despre etapele de preprocesare și terminologiile LSTM. Dacă sunteți destul de încrezători cu privire la acești pași, puteți sări la următorul articol.

Să începem!

Citerea și analiza datelor

Pentru acest articol voi folosi datele istorice ale prețului acțiunilor GE. Puteți găsi datele pe site-ul meu kaggle aici. Nu-mi amintesc sursa datelor, deoarece le descărcasem cu mult timp în urmă. Putem citi datele în cadru așa cum se arată mai jos :

df_ge = pd.read_csv(os.path.join(INPUT_PATH, "us.ge.txt"), engine='python')
df_ge.tail()

După cum puteți vedea, există aproximativ 14060 de elemente, fiecare reprezentând atributele bursiere ale unei zile pentru companie. Să vedem cum arată pe un grafic :

from matplotlib import pyplot as pltplt.figure()
plt.plot(df_ge)
plt.plot(df_ge)
plt.plot(df_ge)
plt.plot(df_ge)
plt.title('GE stock price history')
plt.ylabel('Price (USD)')
plt.xlabel('Days')
plt.legend(, loc='upper left')
plt.show()

Se pare că prețurile – Open, Close, Low, High – nu variază prea mult unul față de celălalt, cu excepția unor ușoare scăderi ocazionale ale prețului Low.

Acum să verificăm graficul pentru volum :

plt.figure()
plt.plot(df_ge)
plt.title('GE stock volume history')
plt.ylabel('Volume')
plt.xlabel('Days')
plt.show()

Huh. Ați văzut ceva interesant? Există o creștere destul de mare a numărului de tranzacții în jurul datei de 12000 de zile pe cronologie, care se întâmplă să coincidă cu scăderea bruscă a prețului acțiunilor. Poate că putem să ne întoarcem la acea dată anume și să căutăm articole de știri vechi pentru a afla ce a cauzat acest lucru.

Acum să vedem dacă avem vreo valoare nulă/Nan de care să ne facem griji. Se pare că nu avem nicio valoare nulă. Minunat!

print("checking if any null values are present\n", df_ge.isna().sum())

Normalizarea datelor

Datele nu sunt normalizate și intervalul pentru fiecare coloană variază, în special Volumul. Normalizarea datelor ajută algoritmul la convergență, adică la găsirea eficientă a minimului local/ global. Voi folosi MinMaxScaler din Sci-kit Learn. Dar, înainte de aceasta, trebuie să împărțim setul de date în seturi de date de instruire și de testare. De asemenea, voi converti DataFrame în ndarray în acest proces.

Conversia datelor în serii de timp și problema învățării supravegheate

Acest lucru este destul de important și oarecum complicat. Aici este nevoie de cunoștințele LSTM. Aș da o scurtă descriere a conceptelor cheie care sunt necesare aici, dar vă recomand cu tărie să citiți blogul lui Andre karpathy aici, care este considerat una dintre cele mai bune resurse despre LSTM de acolo și aceasta. Sau puteți viziona și videoclipul lui Andrew Ng (care, apropo, menționează și blogul lui Andre).

LSTM-urile consumă intrare în format ; a 3- dimensional array.

Batch Size spune câte eșantioane de intrare doriți să vadă rețeaua neuronală înainte de a actualiza ponderile. Deci, să spunem că aveți 100 de eșantioane (set de date de intrare) și doriți să actualizați ponderile de fiecare dată când NN dvs. a văzut o intrare. În acest caz, dimensiunea lotului ar fi 1, iar numărul total de loturi ar fi 100. În mod similar, dacă ați dori ca rețeaua dvs. să actualizeze ponderile după ce a văzut toate eșantioanele, dimensiunea lotului ar fi 100, iar numărul de loturi ar fi 1. Se pare că utilizarea unor loturi de dimensiuni foarte mici reduce viteza de instruire și, pe de altă parte, utilizarea unor loturi de dimensiuni prea mari (cum ar fi întregul set de date) reduce capacitatea modelelor de a generaliza la date diferite și, de asemenea, consumă mai multă memorie. Dar este nevoie de mai puțini pași pentru a găsi minimele pentru funcția obiectiv. Prin urmare, trebuie să încercați diferite valori pe datele dvs. și să găsiți punctul optim. Este un subiect destul de vast. Vom vedea cum să le căutăm într-un mod oarecum mai inteligent în următorul articol.
Pașii de timp definesc câte unități înapoi în timp doriți ca rețeaua dvs. să vadă. De exemplu, dacă lucrați la o problemă de predicție a caracterelor în care aveți un corpus de text pe care să vă antrenați și decideți să alimentați rețeaua dvs. cu 6 caractere la un moment dat. Atunci pasul de timp este 6. În cazul nostru, vom folosi 60 ca pas de timp, adică ne vom uita la 2 luni de date pentru a prezice prețul din zilele următoare. Mai multe despre acest lucru mai târziu.
Caracteristicile sunt numărul de atribute utilizate pentru a reprezenta fiecare pas de timp. Luați în considerare exemplul de predicție a caracterelor de mai sus și presupuneți că folosiți un vector codificat cu un singur foc de dimensiune 100 pentru a reprezenta fiecare caracter. Atunci dimensiunea caracteristicilor aici este 100.

Acum că am lămurit oarecum terminologiile, haideți să convertim datele noastre de stoc într-un format adecvat. Să presupunem, pentru simplitate, că am ales 3 ca pasul nostru de timp (dorim ca rețeaua noastră să se uite înapoi la 3 zile de date pentru a prezice prețul în a 4-a zi), atunci vom forma setul nostru de date astfel:

Eroare de antrenament vs eroare de validare

Aceasta este modul în care a arătat predicția cu modelul de mai sus:

Am constatat că această configurație pentru LSTM funcționează cel mai bine dintre toate combinațiile pe care le-am încercat (pentru acest set de date), și am încercat mai mult de 100! Așadar, întrebarea este cum ajungi la arhitectura perfectă (sau, în aproape toate cazurile, aproape perfectă) pentru rețeaua ta neuronală? Acest lucru ne conduce la următoarea secțiune importantă, care va fi continuată în următorul articol.

Puteți găsi toate programele complete pe profilul meu Github aici.

NOTA: O rugăminte umilă către cititori – Sunteți cu toții bineveniți să vă conectați cu mine pe LinkedIn sau Twitter, dar dacă aveți o întrebare referitoare la blogurile mele, vă rog să o postați în secțiunea de comentarii a blogului respectiv în loc de mesaje personale, astfel încât, dacă altcineva are aceeași întrebare, să o găsească chiar aici, iar eu să nu fiu nevoit să o explic individual. Cu toate acestea, sunteți în continuare bineveniți să îmi trimiteți personal întrebări care nu au legătură cu blogurile sau întrebări tehnice generale. Mulțumesc 🙂

UPDATE 13/4/19

Am aflat, de când am scris acest articol, că este posibil ca modelul meu folosit pentru acest blog să fi fost supraajustat. Deși nu am confirmat acest lucru, este probabil. Așadar, vă rog să fiți atenți în timp ce implementați acest lucru în proiectele dumneavoastră. Ați putea încerca lucruri cum ar fi epoci mai mici, o rețea mai mică, mai multe scăderi etc.
Am folosit activarea Sigmoid pentru ultimul strat, care poate suferi de limitarea de a nu putea prezice un preț mai mare decât prețul „maxim” din setul de date. Ați putea încerca activarea ‘Linear’ pentru ultimul strat pentru a rezolva acest lucru.
Am corectat o greșeală de scriere în secțiunea „Converting data to time-series”.

Mulțumesc cititorilor pentru că mi-au adus la cunoștință aceste aspecte.

UPDATE 21/1/2020

Motivație și public țintă

Citerea și analiza datelor

Normalizarea datelor

Conversia datelor în serii de timp și problema învățării supravegheate

Crearea modelului

Related Posts

Tensiunea arterială este de 102 peste 50?

Cele 13 specii de bufnițe din Colorado

21 de rețete cu conținut scăzut de carbohidrați pentru dieta mediteraneană

Lasă un răspuns Anulează răspunsul