دانیل لیبمن *، سیمی هابر و مری شاپس
- گروه ریاضیات، دانشگاه بار-ایلان، رامات گان، اسرائیل
تغییرات در حجم معاملات روزانه جزء هر استراتژی معاملاتی الگوریتمی است. بر این اساس، پیشبینی تغییر در حجم معاملات برای درک بهتر بازارهای مالی بسیار مهم است. این مقاله روش جدیدی را برای پیشبینی تغییر گزارش در حجم معاملات معرفی میکند، با استفاده از قدرت شبکههای حافظه کوتاهمدت (LSTM) در رابطه با مدلهای رگرسیون بردار پشتیبان (SVR) و خودرگرسیون (AR). ما نشان میدهیم که LSTM به پیشبینی دقیقتری کمک میکند، بهویژه زمانی که به عنوان بخشی از یک مدل ترکیبی با AR ساخته شود. این الگوریتم به گونهای گسترش مییابد که دادههای مربوط به زمان روز را شامل شود، و به مدل کمک میکند تا تغییر گزارش حجم معاملات را با ساعت جاری مرتبط کند، که بهترین عملکرد را در بین تمام آزمایشها به همراه دارد.
1. مقدمه
در سالهای اخیر، یادگیری عمیق موضوع تحقیقات فزایندهای در بسیاری از رشتهها، از جمله برنامههای کاربردی در امور مالی شده است (دیکسون و همکاران، 2017). علیرغم محبوبیت آن، تنها تعداد انگشت شماری از مطالعات در مورد استفاده از روش های یادگیری عمیق در پیش بینی حجم انجام شده است (Arpád Szűcs, 2017).
در نتیجه رشد کاربردهای یادگیری عمیق، شبکه های عصبی و به طور خاص شبکه های حافظه کوتاه مدت (LSTM) محبوب شدند. شبکه های LSTM به ویژه در پردازش زبان طبیعی و همچنین در پیش بینی عنصر بعدی در یک دنباله یا حتی کل دنباله موفقیت نشان دادند. این توانایی همچنین می تواند برای پیش بینی روندهای مالی، از جمله تغییر در حجم معاملات سهام - موضوعی با اهمیت بالا استفاده شود، زیرا می تواند برای کمک به حل طیف گسترده ای از مشکلات مالی استفاده شود. به عنوان مثال، یک معامله گر الگوریتمی ممکن است از پیش بینی حجم معاملات برای تعیین اندازه یک موقعیت در یک اوراق بهادار خاص استفاده کند. پیش بینی تغییر در حجم معاملات برای مدیریت ریسک نیز کاربرد دارد. به عنوان مثال، یک معامله گر ممکن است تصمیم بگیرد که قرار گرفتن در معرض روزانه را محدود کند، به عنوان مثال، قرار گرفتن در معرض در طول روز معاملاتی، مطابق با تغییرات حجم معاملات. این حوزه تحقیقاتی ممکن است در تنظیمات نظارتی نیز کاربردهایی داشته باشد. مدلی که بتواند تغییر در حجم معاملات را پیش بینی کند ممکن است در تشخیص فعالیت های نامنظم مفید باشد، مانند افزایش شدید حجم در زمانی که انتظار کاهش می رود.
با وجود اهمیت آن ، تاکنون فقط تعداد محدودی از مقالات در مورد این موضوع منتشر شده است (árpád Szűcs ، 2017). بنابراین ، پیش بینی حجم معاملات ، و به ویژه تغییر داخلی در حجم معاملات ، هنوز یک موضوع باز با تحقیقات بسیار محدود است. این کمبود هنگام تمرکز بر استفاده از روشهای یادگیری عمیق و به طور خاص LSTM در پیش بینی ، و همچنین ترکیب LSTM با سایر الگوریتم ها برای ایجاد مدل های ترکیبی ، حتی بیشتر برجسته تر است.
در این سهم ، ما از قدرت LSTM برای پیش بینی تغییر حجم معاملات S& P 500 ETF (NYSE: SPY) در طول روز تجارت استفاده کردیم. ما LSTM را به تنهایی و همچنین یک مدل ترکیبی اجرا کردیم که در آن LSTM را با سایر الگوریتم ها ترکیب کردیم. نتایج ما نشان می دهد که LSTM به پیش بینی برتر از تغییر حجم کمک می کند.
ما همچنین از روشی به نام رگرسیون بردار پشتیبانی (SVR) ، نوعی دستگاه بردار پشتیبانی (SVM) استفاده کردیم که برای اولین بار در سال 1995 توسط Cortes و Vapnik (1995) معرفی شد و به طور کامل در Smola و Schölkopf (2004) کاوش شد. SVR به طور مشابه با SVM کار می کند و پیش بینی ها را با پیدا کردن یک هواپیما بیش از حد که برای رگرسیون استفاده می شود ، ایجاد می کند. همانطور که در زیر توضیح داده شد ، ما SVR را در رابطه با سایر الگوریتم ها برای ایجاد چندین مدل ترکیبی از ما استفاده کردیم. هدف ما مقایسه عملکرد رویکردهای مختلف و تشخیص اینکه آیا ترکیب چنین رویکردهای مختلف در کنار هم ، پیشرفت نسبت به استفاده از این مدل های مشابه را به صورت جداگانه به همراه دارد.
2. بررسی ادبیات
در مقایسه با قیمت ، که در آن مقدار زیادی نوشته شده است ، فقط تعداد کمی از مقالات در مورد پیش بینی حجم منتشر شده است (árpád szűcs ، 2017). با این وجود ، پیش بینی و به طور کلی درک بهتر حجم مهم است زیرا بسیاری از فعالان بازار و معامله گران تحت تأثیر حجم معاملات قرار دارند. علاوه بر این ، قیمت و حجم با همبستگی مثبت شناخته شده است ، پدیده ای که به طور طول مورد مطالعه قرار گرفته است ، به ویژه در دهه 1980 توسط کارپوف (1987). این آثار با تمرکز بر یافتن همبستگی بلند مدت بین حجم و Delta Price Squared ، که به عنوان مربع تغییر قیمت تعریف شده است.
مطالعات نشان می دهد که تغییر در حجم معاملات داخلی ممکن است تحت تأثیر عوامل مختلفی باشد ، از جمله الگوهای در افتتاح ، بسته شدن ، حراج ها ، انتشار خبری و ریزساختارهای بازار و همچنین عوامل متعددی دیگر (Kissell ، 2014). از طرف دیگر ، ممکن است از حجم نیز برای پیش بینی نوسانات بازار استفاده شود ، همانطور که توسط فلمینگ و همکاران نشان داده شده است.(2008) ، واگنر و مارش (2004) و لاموروکس و لاستراپس (1990). بنابراین ، حجم پیش بینی یک کار پیچیده است. در این مقاله به بررسی سودمندی LSTM در پیش بینی تغییر در حجم معاملات کلی داخل و همچنین مقایسه عملکرد LSTM در رابطه با سایر مدل ها می پردازیم.
چندین نمونه اخیر از تلاش برای پیش بینی رفتار حجم شامل آلویم و همکاران است.(2010) و چن و همکاران.(2016). در آلویم و همکاران.(2010) ، نویسندگان سعی کردند حجم را با استفاده از مربعات حداقل جزئی (PLS) و پشتیبانی از رگرسیون بردار (SVR) پیش بینی کنند. هر دو روش از این معیار بهتر عمل می کردند ، رویکردی که بر اساس حجم معاملات فواصل زمانی قبل انجام می شود.
مقاله دوم (چن و همکاران ، 2016) است ، جایی که نویسندگان از رویکرد فیلتر کالمن به منظور پیش بینی حجم داخل و حجم متوسط وزن (VWAP) استفاده کردند ، که با جمع بندی تعداد داخلی سهام که توسط قیمت آنها ضرب شده است محاسبه می شود. و تقسیم بر تعداد کل روزانه سهام. نویسندگان به منظور کالیبراسیون مدل خود ، یک حداکثر انتظار از شکل بسته را معرفی کردند. این رویکرد پیش بینی از دو معیار آنها بهتر است: (1) میانگین حرکت (MA) و (2) مدل خطای چند قطعی.
در حالی که برخی از کارهای محدود را می توان در مورد پیش بینی حجم واقعی و VWAP (قیمت متوسط وزن) یافت ، مقالاتی که سعی در پیش بینی تغییر حجم دارند بسیار نادر هستند. یک مقاله قابل توجه (Podobnik و همکاران ، 2009) است ، جایی که نویسندگان در یافتن همبستگی متقابل بین تغییر حجم معاملات ، که به عنوان ورود به سیستم اختلاف روزانه در حجم و قیمت محاسبه می شود ، موفق بودند.
به غیر از این مطالعه ، به بهترین دانش ما هیچ کار دیگری در مورد مطالعه تغییر حجم منتشر نشده است. این تعجب آور است ، زیرا تغییر حجم می تواند برای سازندگان بازار در تصمیم گیری خود بسیار مفید باشد ، به خصوص هنگام برخورد با فواصل داخلی. به عنوان مثال ، برخی از استراتژی های تجاری الگوریتمی تنها ممکن است در شرایطی که فعالیت معاملات در چند دقیقه آینده افزایش می یابد ، موفق شود. برای چنین استراتژی هایی ، پیش بینی های حجم بلند مدت مفید نخواهد بود. تحقیقات ما با مقایسه چند الگوریتم یادگیری که بر پیش بینی تغییر حجم تمبر بعدی بر اساس اطلاعات معاملاتی از یک پنجره نسبتاً کوتاه از فعالیت های اخیر متمرکز شده اند ، به این موضوع می پردازد.
یادگیری عمیق در دهه 1980 شروع به پذیرش کرد اما اخیراً به دلیل افزایش قدرت محاسبه موازی و در دسترس بودن مقادیر گسترده داده ها ، محبوبیت زیادی پیدا کرد. این امر منجر به ایجاد انواع مختلف شبکه های عصبی شد که هر یک به سمت حل یک مشکل متفاوت بودند. یکی از این ، شبکه های عصبی مکرر (RNN) ، برای یادگیری در داده های متوالی x 1 ، x 2… x n (گلدبرگ ، 2017) در نظر گرفته شده است.
فرمول های زیر با نشان دادن آنچه در هر لایه اتفاق می افتد ، ساختار شبکه RNN را توضیح می دهد:
هر لایه دو خروجی تولید می کند: Sمنکه اطلاعات منتقل شده در امتداد شبکه و y استمن، که اختیاری استما می توانیم ساختار متفاوتی را انتخاب کنیم که تنها یک خروجی را در آخرین لایه تولید کند. Sمنوکتور به عنوان حافظه شبکه عمل می کند ، که به شبکه کمک می کند تا هنگام تولید خروجی ، ورودی های قبلی را پیگیری کند. تابع F یک تابع غیر خطی مانند TANH است که از نظر عنصر کاربردی است. W و U ماتریس های وزنی هستند که با استفاده از تکثیر پشتی آموخته می شوند.
اخیراً ، ما شاهد ظهور شبکه های حافظه کوتاه مدت (LSTM) بودیم که برای رفع نقص اساسی در توانایی RNN در مقابله با حافظه بلند مدت معرفی شده اند. شبکه های LSTM قادر به رفع مشکل شیب ناپدید شدن/منفجر کننده هستند که برای اولین بار توسط بنگیو و همکاران معرفی شد.(1994) و بیشتر در پاسکانو و همکاران کاوش شد.(2013). در Hochreiter و Schmidhuber (1997) ، شبکه های LSTM از واحدهای دروازه چند برابر برای دستیابی به این هدف استفاده می کنند و یک سلول حافظه و واحدهای دروازه را به شبکه اضافه می کنند. ایده این است که مسیری اضافی را برای اطلاعات تاریخی فراهم کنیم تا از طریق لایه ها حرکت کنند بدون اینکه تحت تأثیر پدیده شیب ناپدید شوند. در هر لایه t - 1 خروجی که به لایه بعدی منتقل می شود از دو بردار تشکیل شده است: ct −1، که سلول حافظه است ، و St −1، که مشابه اطلاعاتی است که در شبکه های معمولی RNN منتقل می شود. اگر اجازه دهیم "⊙" نمایانگر ترکیب عاقلانه ورودی باشد ، سپس در لایه t ، الگوریتم زیر اعمال می شود:
جایی که f = σ (x t w x f + s t - 1 w s f) دروازه ای است که برای کنترل اطلاعاتی که از گذشته توسط f ⊙ c می گذرد استفاده می شودt −1، این اطلاعات برای حفظ از لایه های قبلی است. بردار i = σ (x t w x i + s t - 1 w s i) دروازه ای است که برای کنترل اطلاعات جدید برای اضافه کردن از بردار z = t a n h (x t w x z + s t - 1 w s z) استفاده می شود. اطلاعات جدید برای افزودن توسط i ⊙ z تعیین می شود. ماتریس های وزنی W XF ، W SF ، W XZ و W SZ همه با استفاده از تکثیر پشتی آموزش دیده اند. با این حال ، به دلیل مسیرهای ایجاد شده توسط دروازه ها ، شیب ها از بین نمی روند و حافظه طولانی می تواند از طریق لایه های مختلف جریان یابد.
در سالهای اخیر ، تحقیقات در حال رشد وجود داشته است که ادعا می کند نتایج پیش بینی بهتری را با مدلهای ترکیبی بدست می آورد که الگوریتم های یادگیری متعدد را در مقایسه با یک مدل الگوریتم واحد ترکیب می کنند. مدل های ترکیبی در برنامه های تحقیقاتی مالی موفق بوده اند ، همانطور که در Cavalcante و همکاران به تفصیل ارائه شده است.(2016). یک مثال (لیانگ و همکاران ، 2009) است ، جایی که نویسندگان قیمت گزینه های آینده را با استفاده از تکنیک های قیمت گذاری معمولی همراه با دو مدل یادگیری پیش بینی کردند: شبکه های عصبی و رگرسیون بردار پشتیبانی. نویسندگان از این مدل ترکیبی در داده های تجربی از بازار گزینه های هنگ کنگ استفاده کردند و نشان دادند که نتایج برتر از روشهای استاندارد مورد استفاده برای قیمت گذاری گزینه را برمی گرداند. ما با مدل های ترکیبی نیز آزمایش کردیم.
3. روش شناسی
برای تحقیقات ما ، ما از داده های معاملاتی دقیقه و حجم S& P 500 ETF (NYSE: SPY) بین سالهای 2012 تا 2015 استفاده کردیم. داده ها از Quantquote خریداری شده است.
ما این داده ها را به سه بخش تقسیم کردیم: قطار ، توسعه و آزمایش. مجموعه داده قطار از اول ژانویه 2012 تا 31 دسامبر 2013 بود. مجموعه داده های توسعه از 1 ژانویه 2014 تا 30 آوریل 2014 بود. مجموعه داده های آزمون از اول ماه مه 2014 تا 30 سپتامبر 2014 بود. جدول 1 در زیر چندین طرح بندی شده استمعیارهای آمار توصیفی در سه مجموعه داده مختلف.
میز 1 . آمار توصیفی در مورد سه مجموعه داده.
ما هر یک از الگوریتم های شرح داده شده در زیر را در مجموعه داده قطار آموزش دادیم اما پارامترهای بهترین عملکرد را بر اساس کمترین خطایی که در مجموعه داده های توسعه به دست آوردیم انتخاب کردیم. این کار برای دستیابی به اعتبار سنجی متقابل انجام شد ، زیرا مدل ها مستعد ابتلا به بیش از حد در مجموعه داده قطار هستند. ما از پارامترها برای ارزیابی عملکرد در مجموعه داده های آزمون استفاده کردیم و نتایج هر مدل را مقایسه کردیم. ما از بسته TensorFlow برای ساخت و اجرای الگوریتم LSTM و همچنین پیگیری نتایج استفاده کردیم.
ما در مجموع نه روش را برای پیش بینی تغییر حجم معاملات S& P 500 ETF در طول روز تجارت آزمایش کردیم. این موارد شامل LSTM و چندین مدل دیگر در زیر توضیح داده شده است.
برای یافتن بهترین راه برای پیش بینی تغییر حجم ورود به سیستم در فاصله 10 دقیقه ای ، ما با چند روش آزمایش کردیم. روش اول ، با عنوان "AR" ، یک مدل ساده رگرسیون خودکار (AR) در ورود به سیستم ارقام حجم معاملات بود. ما AR را با استفاده از فرمول زیر محاسبه کردیم:
جایی که V ^ i نمایه پیش بینی شده از حجم معاملات و V را نشان می دهدمننشان دهنده ورود به حجم واقعی معاملات است. پارامترهای A ، B با استفاده از داده های حجم داخل intraday ، به عنوان مثال ، از ابتدای آموزش تا آخرین مقدار شناخته شده I - 1. تعبیه شده است. همانطور که فرمول نشان می دهد ، هر پیش بینی به عنوان یک ترکیب خطی از آخرین مقدار محاسبه می شود. سرانجام ، ما پیش بینی تغییر در حجم ورود را با محاسبه ŷ i = v ^ i - v i - 1 ایجاد کردیم.
در ابتدا ، ما مدل AR را در حجم ورود به سیستم مجموعه داده قطار قرار دادیم. بعد ، ما تفاوت ها را ارزیابی کردیم ، به عنوان مثال ،من، در مجموعه داده آزمون. این روش AR به عنوان معیار ما خدمت کرده است.
ما دو آزمایش را در داده های حجم 10 دقیقه ورود به سیستم انجام دادیم تا اطمینان حاصل شود که AR برای هدف ما مناسب است. اول ، برای بررسی اینکه آیا داده ها ثابت است ، ما از آزمون افزودنی Dickey-Fuller استفاده کردیم (دیکی و فولر ، 1979) ، که نتیجه ای را به ما داد که به ما اجازه داد تا فرضیه تهی را رد کنیم که داده ها غیر ثابت هستند. خروجی آزمون را می توان در جدول 2 مشاهده کرد. از مرحله بعدی ، ما یک تجزیه و تحلیل تاخیر انجام دادیم ، که نشان می دهد همبستگی خودکار با تاخیر کاهش می یابد. نتایج این تجزیه و تحلیل را می توان در شکل 1 مشاهده کرد. با هم ، اینها پشتیبانی از استفاده از AR را با تاخیر 1 یا AR (1) ارائه می دهند.
جدول 2نتایج آزمون دیک ی-فولر تقویت شده.
شکل 1 . همبستگی حجم ورود به سیستم با تاخیر.
روش دوم ، با عنوان "LSTM" ، شامل اجرای LSTM است که در آن بردار ویژگی از تغییر قیمت ورود به سیستم و حجم ورود به یک پنجره 50 دقیقه ای (دنباله ای از 5 فواصل 10 دقیقه ای) تشکیل شده است. در اینجا ، ما سعی کردیم تغییر حجم ورود به سیستم را برای فاصله 10 دقیقه بعدی پیش بینی کنیم. به طور خاص ، برای هر فاصله 10 دقیقه ای T یک پنجره W را تعریف کردیمحرفمانند:
w t t = (Δ v t - 1 ، Δ v t - 2 ، ... ، Δ v t - 5 ، Δ h t - 1 ، Δ h t - 2 ،… ، Δ h t - 5 ، Δ l t - 1 ، δ l t - 2 ،… ، Δ l t - 5 ، Δ c t - 1 ، Δ c t - 2 ،… ، Δ c t - 5 ، Δ o t - 1 ، Δ o t - 2 ،… ، Δ o t - 5) (4)
جایی که Δ vحرفآیا تغییر حجم ، Δ H استحرفآیا تغییر در قیمت بالا ، δ l استحرفآیا تغییر در قیمت پایین ، δ c استحرفآیا تغییر در قیمت نزدیک است و Δ oحرفتغییر در قیمت باز است ، همه برای یک فاصله 10 دقیقه ای. ما اندازه پنجره 5 را پس از برخی آزمایشات اولیه انتخاب کردیم و خطا نشان داد که ممکن است بهترین پتانسیل پیش بینی را داشته باشد. با این حال ، بهینه سازی اندازه پنجره به همراه سایر پارامترهای مدل ممکن است نیاز به تحقیقات اضافی داشته باشد.
برای روش سوم ما ، با عنوان "LSTM-AR" ، پیش بینی های AR را برای قیمت ورود به سیستم و حجم ورود به وکتور ویژگی LSTM اضافه کردیم. ما این کار را با محاسبه مجموعه پیش بینی AR از قیمت ورود به سیستم و حجم ورود به سیستم انجام دادیم. مجموعه پیش بینی شامل قیمت های باز ، نزدیک ، زیاد و پایین در هر بازه 10 دقیقه ای بود. ما تصمیم گرفتیم که از AR استفاده کنیم تا ارقام را پیش بینی کنیم ، سپس دلتا را بین پیش بینی و آخرین داده های واقعی محاسبه کردیم. به عنوان مثال ، ما از AR برای پیش بینی باز بعدی استفاده کردیم ، سپس آخرین باز شناخته شده را برای رسیدن به دلتا از آن جدا کردیم. این برای هر فاصله 10 دقیقه ای در پنجره 50 دقیقه تکرار شد. این ارقام دلتا سپس در بردار ویژگی LSTM گنجانیده شد.
برای روش چهارم ما ، با عنوان "LSTM-SVR" ، ما یک مدل ترکیبی ایجاد کردیم که نتایج LSTM را با SVR ترکیب کرد. این با استفاده از خروجی LSTM به عنوان بردار ویژگی SVR حاصل شد.
برای روش پنجم ما ، با عنوان "LSTM-AR-SVR" ، ما از مدل "LSTM-AR" خود استفاده کردیم و سپس خروجی را به وکتور ویژگی SVR تغذیه کردیم.
یکی از مشکلاتی که ما با آن مواجه شدیم این بود که LSTM به خودی خود نمی توانست ویژگی U شکل حجم روزانه را ثبت کند. این به این دلیل است که LSTM فقط میتواند به یک پنجره 5 دقیقهای نگاه کند، در حالی که U شکل معمولاً هنگام بررسی مدت زمان طولانیتر، چندین ساعت یا حتی یک روز معاملاتی کامل آشکار میشود. در تلاش برای کمک به LSTM در درک بهتر روندهای روزانه حجم، تصمیم گرفتیم ساعت را به بردار ویژگی اضافه کنیم. ما این را در مدلهای «LSTM»، «LSTM-AR»، «LSTM-SVR» و «LSTM-AR-SVR» پیادهسازی کردیم و آنها را «LSTM-HR»، «LSTM-AR-HR»، «LSTM» گذاشتیم.-SVR-HR،» «LSTM-AR-SVR-HR» به ترتیب.
عملکرد مدلها با استفاده از سه امتیاز ارزیابی شد: میانگین خطای مطلق (MAE)، ریشه میانگین مربعات خطا (RMSE)، و توانایی مدل برای گرفتن جهت صحیح تغییر (جهت صحیح)، به عنوان مثال، آیا تغییر بعدیتغییر مهر زمانی حجم معاملات ورود به سیستم مثبت یا منفی بود. ما هر متریک را همانطور که در جدول 3 در زیر نشان داده شده است، محاسبه کردیممننشان دهنده تغییر گزارش پیش بینی شده در حجم، y استمننشان دهنده تغییر لاگ واقعی در حجم و N تعداد نقاط داده است.
جدول 3. فرمول های متریک برای ارزیابی عملکرد هر مدل استفاده می شود.
4. نتایج
نتایج آزمایشها در جدول 4 زیر نشان داده شده است که به ترتیب صعودی بر اساس مقدار MAE مرتب شدهاند، به عنوان مثال، بهترین نتیجه (کمترین MAE) در ردیف آخر ظاهر میشود. نتایج نیز در شکل 2 نشان داده شده است.
جدول 4. نتایج از هر اجرای آزمایشی.
شکل 2 . مقایسه MAE، RMSE، و درصد پیشبینیهای جهت صحیح از هر آزمایش. مدل هیبریدی با ترکیب LSTM با AR و داده های ساعتی بهترین عملکرد را داشت.
همانطور که از جدول مشخص است، LSTM-AR-HR با MAE 0. 7669 و جهت صحیح 0. 7054 بهترین عملکرد را در بین تمام مدل ها ارائه کرده است. این نشان دهنده بهبود قابل توجهی نسبت به نتایج A R-1. 0493 MAE و 0. 6350 جهت صحیح است. همه الگوریتمها منجر به بهبودی نسبت به آزمایش AR شدند که هم MAE کمتر و هم جهت صحیح بالاتری را به همراه داشت.
جالب اینجاست که مدل LSTM-SVR مقدار کمی پایین تر از خطای MAE تولید می کند اما در توانایی پیش بینی جهت صحیح تغییر ورود به سیستم در حجم به طور قابل توجهی بهتر عمل می کند. این را می توان با حاشیه SVR توضیح داد ، که به آن امکان درک و یادگیری روند کلی در داده ها را می دهد - در این حالت ، تغییر حجم ورود به سیستم. از طرف تلنگر ، این بدان معنی است که مدل SVR قادر به ضبط تغییرات کوچکتر و ظریف تر به ویژه در دوره های زمانی کوتاه تر است.
از این آزمایشات ، بدیهی است که LSTM به یک الگوریتم پیش بینی که برتر از AR است ، کمک می کند. علاوه بر این ، افزودن اطلاعات ساعت به وکتور ویژگی بیشتر به LSTM کمک می کند تا داده ها را درک و مدل سازی کند ، بیشتر از ترکیب LSTM با سایر مدل ها. با این حال ، ترکیب LSTM با SVR و/یا AR همچنین عملکرد مدل را بهبود می بخشد ، اگرچه SVR نسبت به AR برتر است وقتی که هر یک با LSTM به صورت جداگانه ترکیب می شوند. همانطور که در بالا توضیح داده شد ، با افزودن داده های ساعت و ترکیب LSTM با AR ، بهترین نتایج حاصل می شود.
از آنجا که ساعت روز نقش مهمی در پیش بینی ایفا کرده است ، ما بیشتر تأثیر آن را مورد تجزیه و تحلیل قرار دادیم و اینکه آیا می توان از آن به خودی خود برای پیش بینی تغییر حجم ورود به سیستم در داده های داخلی استفاده کرد. اول ، اهمیت زمان داخلی از شکل 3 مشهود است ، که میانگین حجم ساعت را در طی یک دوره 1 ساله نشان می دهد. در این نمودار ، ما به راحتی می توانیم به شکل u از حجم متوسط ، به عنوان مثال ، در ساعات مشخصی در روز مانند اواسط روز ، حجم کاهش یابد ، در حالی که در سایر موارد ، مانند صبح زود و اواخر بعد از ظهر ، حجمبه طور متوسط تمایل به افزایش دارد.
شکل 3. میانگین حجم معاملات در ساعت در سال 2013. اگرچه داده های روزانه می توانند به طور قابل توجهی از میانگین منحرف شوند ، اما شکل U معمولی به وضوح قابل مشاهده است ، که ناشی از فعالیت بالاتر در ساعات اولیه و اواخر روز تجارت به همراه افت حدود اواسط روز است.
با این حال، تلاش برای پیشبینی تغییر روزانه در حجم گزارش بر اساس این پدیده، نتایجی به دست میدهد که دقت بسیار کمتری نسبت به روشهای دیگر ما به کار میرود. ما سعی کردیم تغییر در حجم گزارش را به چند روش پیش بینی کنیم. ابتدا سعی کردیم از میانگین حجم مورد انتظار استفاده کنیم که به ما MAE 1. 1086 و RMSE 2. 256 را داد. در مرحله بعد، ما از LSTM با پنج بازه 10 دقیقهای استفاده کردیم، که در آن تنها ویژگی که ارسال کردیم ساعت بود - مشابه سایر الگوریتمهایی که در این مطالعه استفاده کردیم. این مقدار MAE 0. 9165 و RMSE 1. 3907 را به همراه داشت. در هر دو آزمایش، توانایی ما برای پیشبینی جهت صحیح تغییر در حجم گزارش به زیر 60 درصد کاهش یافت. این نشان می دهد که زمان روز، به خودی خود، در تلاش برای پیش بینی تغییر در حجم گزارش عملکرد خوبی ندارد. به عبارت دیگر، تلاش برای پیش بینی تغییر لاگ در حجم بر اساس اینکه آیا انتظار داریم حجم با توجه به زمان روز افزایش یا کاهش یابد، استراتژی خوبی نیست. این به این دلیل است که دادههای معاملاتی در طی روزهای جداگانه نوسان دارند. علاوه بر این، ترکیب اطلاعات اضافی در مورد داده های معاملاتی واقعی، اطلاعات بیشتری را به ارمغان می آورد و استفاده از این داده ها همراه با قدرت LSTM در بهبود پیش بینی ها ارزشمند است.
ما همچنین خطاهای ایجاد شده توسط مدل با بهترین عملکرد خود، "LSTM-AR-HR" را بررسی کردیم. خطاها به عنوان تفاوت بین پیشبینی مدل ما از تغییر و تغییر واقعی در حجم گزارش برای بازه محاسبه شد. برای تحلیل خود، همبستگی خودکار بین خطاها را بررسی کردیم. نتایج، همانطور که در شکل 4 مشاهده می شود، نشان می دهد که هیچ همبستگی خودکاری بین خطاهای سری زمانی وجود ندارد.
شکل 4. نموداری از همبستگی خودکار خطا با تاخیر. نوار نازک نشان دهنده فاصله اطمینان 95٪ است.
5. نتیجه گیری
در این مقاله، هدف ما آزمایش عملکرد LSTM به تنهایی و همچنین هنگام ترکیب با سایر مدلها در پیشبینی تغییر گزارش حجم معاملات در طول روز معاملاتی بود. ما LSTM، LSTM را با رگرسیون برداری پشتیبانی شده (SVR) و LSTM ترکیب شده با SVR و AR و ترکیبی از هر سه مقایسه کردیم. ما همچنین ساعت را به بردار ویژگی اضافه کردیم که برای پیشبینی تغییر گزارش در حجم مفید بود. ما این بهبود را به روند کلی در حجم معاملات درون روز نسبت میدهیم، که معمولاً شبیه یک U شکل است که حجم معاملات در ساعات اولیه و اواخر معاملات در روز به اوج خود میرسد.
پیش بینی تغییر حجم در انواع برنامه های مالی از جمله تجارت الگوریتمی مهم است ، جایی که دانستن تغییر در حجم معاملات می تواند بر استراتژی معاملات تأثیر بگذارد. به طور خاص ، ما بر پیش بینی تغییر حجم معاملات در یک بارهای کوتاه متمرکز شده ایم ، که در اتخاذ سودآورترین استراتژی طی چند دقیقه آینده مفید است. تحقیقات آینده می تواند با درج مدل های جدیدتر و جدیدتر برای بهبود پیش بینی ها به این موضوع نگاه کند. همچنین جالب خواهد بود که در طول روزهای مختلف تجارت ، تغییر در شکل U را کشف کنیم تا به عنوان مثال ، کل شکل U را بر اساس شکل U از روزهای قبل پیش بینی کنیم.
صورت در دسترس بودن داده ها
مجموعه داده های این نسخه خطی در دسترس نیست زیرا خرید مورد نیاز است - ما داده های دقیقه سهام را از Quantquote خریداری کردیم. درخواست های دسترسی به مجموعه داده ها باید به daniellibman@gmail. com هدایت شود.
کمک های نویسنده
به عنوان یک محقق اصلی ، DL مسئولیت جمع آوری و پردازش داده های مربوطه ، نوشتن کد ، آزمایش با الگوریتم های مختلف ، مقایسه نتایج و تألیف بیشتر مقاله را بر عهده داشت. SH راهنمایی در سراسر پروژه ، بحث و پیشنهاد روشهای اضافی برای استقرار ارائه داد. در طول مرحله تألیف ، وی اظهارنظرهای متفکرانه ای را برای کمک به اصلاح مقاله و اطمینان از تناسب آن با استانداردهای دانشگاهی این موسسه مطرح کرد. MS نظارت بر پروژه. او در ایده ، جهت گیری و تأیید تمام محاسبات ریاضی مؤثر بود. MS همچنین دسترسی به منابع مهم ، از جمله منابع داده و همچنین چندین همکار را که به عنوان مشاور و مربیان در طول پروژه خدمت کرده بودند ، تسهیل کرد. وی در طی فرایندی که برای به دست آوردن نتایج کیفیت به موقع ضروری بود ، بازخورد ارزشمندی را به دست آورد.
منابع مالی
این تحقیق بر اساس کارهایی که توسط Google Cloud پشتیبانی شده است انجام شده است.
تضاد منافع
نویسندگان اعلام می کنند که این تحقیق در غیاب هرگونه روابط تجاری یا مالی که می تواند به عنوان یک تضاد احتمالی منافع تفسیر شود ، انجام شده است.
منابع
Alvim ، L. G. ، Dos Santos ، C. N. ، and Milidiu ، R. L. (2010)."پیش بینی حجم روزانه با استفاده از پیش بینی کننده های فرکانس بالا" ، در مجموعه مقالات دهمین کنفرانس بین المللی IASTED ، جلد. 674 (Innsbruck) ، 248.
árpád Szűcs ، B. (2017). پیش بینی حجم داخلی: مقایسه دو مدل اولیه. فینresکاهنده21 ، 249-258. doi: 10. 1016/j. frl. 2016. 11. 018
Bengio ، Y. ، Simard ، P. ، and Frasconi ، P. (1994). یادگیری وابستگی های طولانی مدت با تبار شیب دشوار است. IEEE ترانس. netw عصبی. 5 ، 157-166. doi: 10. 1109/72. 279181
Cavalcante ، R. C. ، Brasileiro ، R. C. ، Souza ، V. L. ، Nobrega ، J. P. ، and Oliveira ، A. L. (2016). اطلاعات محاسباتی و بازارهای مالی: یک نظرسنجی و جهت های آینده. سیستم متخصصکاربرد55 ، 194-211. doi: 10. 1016/j. eswa. 2016. 02. 006
Chen ، R. ، Feng ، Y. ، and Palomar ، D. (2016). پیش بینی حجم معاملات Intraday: یک رویکرد فیلتر کالمن. الکترون SSRN. J. doi: 10. 2139/ssrn. 3101695
Cortes ، C. ، and Vapnik ، V. (1995). شبکه های وکتور پشتیبانی. ماچفرا گرفتن. 20 ، 273-297. doi: 10. 1007/bf00994018
دیکی ، D. A. ، و فولر ، دبلیو. A. (1979). توزیع برآوردگرها برای سری زمانی خودکار با ریشه واحد. مربا. آمارانجمن74 ، 427-431. doi: 10. 1080/01621459. 1979. 10482531
دیکسون ، م. ، پولسون ، ن. ، و سوکولوف ، V. (2017). یادگیری عمیق برای مدل سازی فضا-زمانی: جریان ترافیک پویا و معاملات فرکانس بالا. arxiv preprint arxiv: 1705. 09851.
Fleming ، J. ، Kirby ، C. ، and Ostdiek ، B. (2008). مشخصات مدل های GARCH با متغیرهای تصادفی. J. Futures Markets 28 ، 911-934. doi: 10. 1002/fut. 20340
گلدبرگ ، ی. (2017). روشهای شبکه عصبی برای پردازش زبان طبیعی. مصنوعی. سخنرانیهوللنگتکنول10 ، 1-309. doi: 10. 2200/S00762ED1V01Y201703HLT037
Hochreiter ، S. ، and Schmidhuber ، J. (1997). حافظه کوتاه مدت طولانی. رایانه عصبی. 9 ، 1735-1780. doi: 10. 1162/neco. 1997. 9. 8. 1735
Karpoff ، J. M. (1987). رابطه بین تغییرات قیمت و حجم معاملات: یک نظرسنجی. J. Finan. مقدارمقعد22 ، 109–126. doi: 10. 2307/2330874
Kissell ، R. (ویرایش).(2014)."فصل 2 - ریزساختار بازار" ، در علم تجارت الگوریتمی و مدیریت نمونه کارها (سن دیگو ، کالیفرنیا: انتشارات دانشگاهی) ، 47-85.
Lamoureux ، C. G. ، and Lastrapes ، W. (1990). ناهمگونی در داده های بازگشت سهام: حجم در مقابل جلوه های گارچ. J. Finan. 45 ، 221–29. doi: 10. 1111/j. 1540-6261. 1990. tb05088. x
Liang ، X. ، Zhang ، H. ، Xiao ، J. ، and Chen ، Y. (2009). بهبود پیش بینی قیمت گزینه با شبکه های عصبی و پشتیبانی از رگرسیون بردار. Neurocomputing 72 ، 3055-3065. doi: 10. 1016/j. neucom. 2009. 03. 015
Pascanu ، R. ، Mikolov ، T. ، and Bengio ، Y. (2013)."در مورد دشواری آموزش شبکه های عصبی مکرر" ، در کنفرانس بین المللی یادگیری ماشین (آتلانتا ، GA) ، 1310-1318.
Podobnik ، B. ، Horvatic ، D. ، Petersen ، A. M. ، and Stanley ، H. E. (2009). همبستگی بین تغییر حجم و تغییر قیمت. پروکناتلACADعلمیایالات متحده آمریکا 106 ، 22079–22084. doi: 10. 1073/pnas. 0911983106
Smola ، A. J. ، and Schölkopf ، B. (2004). آموزش مربوط به رگرسیون بردار پشتیبانی. آمارمحاسبات. 14 ، 199–222. doi: 10. 1023/b: stco. 0000035301. 49549. 88
Wagner ، N. ، and Marsh ، T. (2004). حجم غافلگیرانه و ناهمگونی در بازده بازار سهام. مقدارباله5 ، 153-168. doi: 10. 2139/ssrn. 591206
کلمات کلیدی: پیش بینی حجم ، LSTM ، شبکه های عصبی ، تغییر در حجم ، مالی ، یادگیری ماشین
استناد: Libman D ، Haber S و Schaps M (2019) پیش بینی حجم با شبکه های عصبی. جلو. ARTIFهوش2:21doi: 10. 3389/frai. 2019. 00021
دریافت: 27 مارس 2019 ؛پذیرفته شده: 23 سپتامبر 2019 ؛منتشر شده: 09 اکتبر 2019.
Dror Y. Kenett ، دانشگاه جان هاپکینز ، ایالات متحده
آریانا آگوستو ، دانشگاه پاویا ، ایتالیا ایتالیا نومان ، کالج امپریال لندن ، انگلستان
کپی رایت © 2019 Libman ، Haber and Schaps. این یک مقاله با دسترسی آزاد است که تحت شرایط مجوز انتساب Creative Commons (CC توسط) توزیع شده است. استفاده ، توزیع یا تولید مثل در سایر انجمن ها مجاز است ، مشروط بر اینکه نویسنده اصلی (ها) و مالک (های) حق چاپ (دارایی) اعتبار داشته باشند و با توجه به عمل دانشگاهی پذیرفته شده ، انتشار اصلی در این ژورنال ذکر شده است. بدون استفاده ، توزیع یا تولید مثل مجاز نیست که این شرایط را رعایت نمی کند.