sdf131

انتخاب سبد سرمایه با استفاده از ماشین بردار پشتیبان و خوشه بندی
مسعود رستگارمقدم عیدیان
استاد راهنما:
دکتر امیرعباس نجفی
پایان نامه برای دریافت مدرک کارشناسی ارشد
رشته مهندسی صنایع گرایش مهندسی مالی
شهریور 93

انتخاب سبد سرمایه با استفاده از ماشین بردار پشتیبان و خوشه بندی
مسعود رستگارمقدم عیدیان
استاد راهنما:
دکتر امیرعباس نجفی
پایان نامه برای دریافت مدرک کارشناسی ارشد
رشته مهندسی صنایع گرایش مهندسی مالی
شهریور 93

تقدیم به
مادر عزیزم

* mergeformat
تاسیس 1307
دانشگاه صنعتی خواجه نصیرالدین طوسی
تأییدیه هیأت داوران شماره:
تاریخ:
هیأت داوران پس از مطالعه پایان‌نامه و شرکت در جلسه دفاع از پایان نامه تهیه شده تحت عنوان : انتخاب سبد سرمایه با استفاده از ماشین بردار پشتیبان و خوشهبندی توسط آقای مسعود رستگارمقدم عیدیان ، صحت و کفایت تحقیق انجام شده را برای اخذ درجه کارشناسی ارشد در رشته مهندسی صنایع گرایش مهندسی مالی در تاریخ ……../6/ 1393 مورد تأیید قرار می‌دهند.
1- استاد راهنما جناب آقای دکتر امیرعباس نجفی امضاء
2- استاد مشاور جناب آقای / سرکار خانم دکتر …………………………………… امضاء
3- ممتحن داخلی جناب آقای / سرکار خانم دکتر …………………………………… امضاء
4- ممتحن خارجی جناب آقای / سرکار خانم دکتر …………………………………… امضاء
5- معاونت آموزشی و تحصیلات تکمیلی دانشکده جناب آقای / سرکار خانم دکتر …………………………………… امضاء
* mergeformat
تاسیس 1307
دانشگاه صنعتی خواجه نصیرالدین طوسی اظهارنامه دانشجو شماره:
تاریخ:
اینجانب مسعود رستگارمقدم عیدیان دانشجوی کارشناسی ارشد رشته مهندسی صنایع گرایش مهندسی مالی دانشکده مهندسی صنایع دانشگاه صنعتی خواجه نصیرالدین طوسی گواهی می‌نمایم که تحقیقات ارائه شده در پایان‌نامه با عنوان انتخاب سبد سرمایه با استفاده از ماشین بردار پشتیبان و خوشهبندی با راهنمایی استاد محترم جناب آقای دکتر امیرعباس نجفی، توسط شخص اینجانب انجام شده و صحت واصالت مطالب نگارش شده در این پایان‌نامه مورد تأیید می‌باشد، و در مورد استفاده از کار دیگر محققان به مرجع مورد استفاده اشاره شده است. بعلاوه گواهی می‌نمایم که مطالب مندرج در پایان نامه تا کنون برای دریافت هیچ نوع مدرک یا امتیازی توسط اینجانب یا فرد دیگری در هیچ جا ارائه نشده است و در تدوین متن پایان‌نامه چارچوب (فرمت) مصوب دانشکده مهندسی صنایع را بطور کامل رعایت کرده‌ام. چنانچه در هر زمان خلاف آنچه گواهی نموده‌ام مشاهده گردد خود را از آثار حقیقی و حقوقی ناشی از دریافت مدرک کارشناسی ارشد محروم می‌دانم و هیچگونه ادعائی نخواهم داشت.
امضاء دانشجو:
تاریخ:
* mergeformat
تاسیس 1307
دانشگاه صنعتی خواجه نصیرالدین طوسی حق طبع و نشر و مالکیت نتایج شماره:
تاریخ:
1- حق چاپ و تکثیر این پایان‌نامه متعلق به نویسنده آن می‌باشد. هرگونه کپی برداری بصورت کل پایان‌نامه یا بخشی از آن تنها با موافقت نویسنده یا کتابخانه دانشکده مهندسی صنایع دانشگاه صنعتی خواجه نصیرالدین طوسی مجاز می‌باشد.
ضمناً متن این صفحه نیز باید در نسخه تکثیر شده وجود داشته باشد.
2- کلیه حقوق معنوی این اثر متعلق به دانشگاه صنعتی خواجه نصیرالدین طوسی می‌باشد و بدون اجازه کتبی دانشگاه به شخص ثالث قابل واگذاری نیست.
همچنین استفاده از اطلاعات و نتایج موجود در پایان نامه بدون ذکر مراجع
مجاز نمی‌باشد.
تشکر و قدردانی فراوان
از زحمات بی دریغ و فراوان جناب آقای دکتر نجفی
و کمک های بی شائبه آقای ندایی

و سپاس فراوان از پروردگارم که همواره پشتیبانم بوده است.

چکیده
انتخاب سبد سرمایه و کسب حداکثری بازده با وجود ریسک کم و نقدشوندگی بالا یکی از تصمیمات پیچیده برای سرمایه گذاران است. با توجه به اینکه پرتفو بهینه از میان سهام های برتر منتخب بوجود میآید،انتخاب سهام و رتبه بندی آنان نگاه ریزبینتری از تحقیقات را شامل میشود که هدف آنان معرفی بهترینها جهت تشکیل سبد سرمایه میباشد. مدل تشکیل سبد سرمایه مدرن(مارکویتز) تنها بر اساس معیارهای بازده و ریسک به انتخاب سهامها میپردازد. هرچند در مطالعات بعد سعی در منظور نمودن معیارها و سنجههای دیگر در مدل مارکویتز جهت بالا بردن عملکرد سبد سرمایه نمودند، ولی توجه کمتری به روند مالی و عملکرد سالانه شرکتهای حاضر در بورس شده است. لذا تشکیل سبد سرمایه بر مبنای تحلیل بنیادی شرکتها و عملکرد مالی آنها مبنای برخی از تحقیقات گردیده است.
با توجه به پیشرفت های صورت گرفته در مدلهای یادگیری و تکینکهای دادهکاوی خط وسیعی از تحقیقات بازار سرمایه که مبتنی بر پیشبینی است به بررسی نحوه استفاده از این مدلها میپردازد. در این پایان نامه با استفاده از ماشین بردار پشتیبان، مدلی را جهت رتبه بندی سهام ها و نیز پیش بینی سهامهای برتر ارائه شده است. در این مدل با استفاده از الگوریتم خوشه بندی K-means دادههای پرت را از مجموعه داده حذف شده و با استفاده از تحلیل پوششی دادهها شرکتهای کارا و ناکارا مشخص شده است. پس از آموزش ماشین بردار پشتیبان، با پیش بینی رتبه سهام ها در سال پایانی و انتخاب سهامهای برتر پرتفو بهینه برای سال بعد ارائه شده است. در نهایت جهت اعتبار سنجی مدل ارائه شده، آن را با میانگین بازده بازار و پرتفوی بهینه بدست آمده از مدل مارکویتز مقایسه شده است.
کلید واژه: پرتفو، ماشین بردار پشتیبان، خوشهبندی، تحلیل بنیادی. تحلیل پوششی داده ها
فهرست مطالب
TOC o “1-3” h z u فصل 1: مقدمه و کلیات تحقیق PAGEREF _Toc398636176 h 11 -1 مقدمه PAGEREF _Toc398636177 h 21-2 هدف از پایان نامه PAGEREF _Toc398636178 h 31-3 توضیح موضوع تحقیق PAGEREF _Toc398636179 h 31-4 توجیه ، انگیزه و علت انتخاب موضوع PAGEREF _Toc398636180 h 41-5 اهمیت موضوع PAGEREF _Toc398636181 h 51-6 مرور کلی بر ادبیات موضوع PAGEREF _Toc398636182 h 61-7 جنبه های نوآوری موضوع PAGEREF _Toc398636183 h 71-8 پرسشها و سوالات اصلی تحقیق PAGEREF _Toc398636184 h 81-9 روش و متدولوژی تحقیق PAGEREF _Toc398636185 h 81-10 نتایج مورد انتظار PAGEREF _Toc398636186 h 91-11 کاربرد های تحقیق PAGEREF _Toc398636187 h 91-12 چارچوب پایان نامه PAGEREF _Toc398636188 h 101-13 جمع بندی PAGEREF _Toc398636189 h 11فصل دوم: مروری بر تحقیقات پیشین PAGEREF _Toc398636190 h 122-1 مقدمه PAGEREF _Toc398636191 h 132-2مروری بر مفاهیم پایه ماشین بردار پشتیبان PAGEREF _Toc398636192 h 142-2-1ابرصفحه ونیم فضا PAGEREF _Toc398636193 h 142-2-2نرم بردار PAGEREF _Toc398636194 h 142-2-3فاصله نقطه از ابرصفحه PAGEREF _Toc398636195 h 142-2-4ابرصفحه متعارفی PAGEREF _Toc398636196 h 152-3انواع ماشین بردار پشتیبان PAGEREF _Toc398636197 h 152-3-1مدل داده های تفکیک پذیر خطی PAGEREF _Toc398636198 h 152-3-2مدل داده های تفکیک ناپذیر خطی PAGEREF _Toc398636199 h 182-4توابع کرنل PAGEREF _Toc398636200 h 232-5کاربرد ماشین بردار پشتیبان در مدیریت پرتفو PAGEREF _Toc398636201 h 262-6مدل تحلیل پوششی داده ها PAGEREF _Toc398636202 h 272-6-1ماهیت الگوی مورد استفاده PAGEREF _Toc398636203 h 282-6-3انواع الگو های DEA PAGEREF _Toc398636204 h 292-7الگوریتم خوشه بندی K-means PAGEREF _Toc398636205 h 36فصل سوم: روش تحقیق PAGEREF _Toc398636206 h 403-1 مقدمه PAGEREF _Toc398636207 h 413-2 طرح کلی از مدل PAGEREF _Toc398636208 h 413-3 آماده سازی داده ها PAGEREF _Toc398636209 h 423-3-1 تعیین نسبت های مالی PAGEREF _Toc398636210 h 423-3-2 ساخت مجموعه داده سهام ها PAGEREF _Toc398636211 h 433-3-3 کاهش سطری و ستونی PAGEREF _Toc398636212 h 433-3-4 معیارهای دسته بندی PAGEREF _Toc398636213 h 443-3-5 تکمیل داده های مفقوده PAGEREF _Toc398636214 h 453-4 دسته بندی داده ها PAGEREF _Toc398636215 h 463-4-1 دسته بندی به کمک تکنیکDEA PAGEREF _Toc398636216 h 463-4-2 دسته بندی بر اساس نظریه مدل قیمت گذاری دارایی سرمایهای (CAPM) PAGEREF _Toc398636217 h 473-5خوشه بندی داده ها و مشخص نمودن داده های زائد PAGEREF _Toc398636218 h 483-6حل مدل با استفاده از ماشین بردار پشتیبان PAGEREF _Toc398636219 h 493-6-1ماشین بردار پشتیبان برای رویکرد مبتنی بر DEA PAGEREF _Toc398636220 h 493-6-2 ماشین بردار پشتیبان مبتنی بر رویکرد CAPM PAGEREF _Toc398636221 h 503-7 تشکیل پرتفو PAGEREF _Toc398636222 h 513-8 اعتبار سنجی مدل PAGEREF _Toc398636223 h 513-9 جمع بندی PAGEREF _Toc398636224 h 52فصل چهارم: پیاده سازی مدل در بورس اوراق بهادار تهران، نتایج و عملکرد PAGEREF _Toc398636225 h 534-1 مقدمه PAGEREF _Toc398636226 h 544-2 داده های مورد استفاده PAGEREF _Toc398636227 h 544-3 آماده سازی داده ها PAGEREF _Toc398636228 h 554-4 دسته بندی داده ها PAGEREF _Toc398636229 h 564-4-1 دسته بندی داده ها بر مبنای رویکرد DEA PAGEREF _Toc398636230 h 564-4-2 دسته بندی بر مبنای مدل CAPM PAGEREF _Toc398636231 h 584-5 خوشه بندی داده ها و حذف داده های زائد PAGEREF _Toc398636232 h 594-5-1 خوشه بندی داده های مبتنی بر رویکرد DEA PAGEREF _Toc398636233 h 594-5-2 خوشه بندی داده های مبتنی بر رویکرد CAPM PAGEREF _Toc398636234 h 614-6 دسته بندی به کمک ماشین بردار پشتیبان PAGEREF _Toc398636235 h 644-6-1 دسته بندی مبتنی بر رویکرد DEA PAGEREF _Toc398636236 h 644-6-2 دسته بندی مبتنی بر رویکرد CAPM PAGEREF _Toc398636237 h 714-7 رتبه بندی سهام PAGEREF _Toc398636238 h 744-8 تشکیل پرتفو PAGEREF _Toc398636239 h 754-9 اعتبارسنجی مدل PAGEREF _Toc398636273 h 794-10 جمع بندی PAGEREF _Toc398636282 h 80فصل پنجم: نتیجه گیری و پیشنهاد برای تحقیقات آتی PAGEREF _Toc398636283 h 815-1مقدمه PAGEREF _Toc398636284 h 825-2 یافته ها و نتایج تحقیق PAGEREF _Toc398636285 h 835-3 دستاوردهای تحقیق PAGEREF _Toc398636286 h 835-4 پیشنهاداتی برای تحقیقات آتی PAGEREF _Toc398636287 h 84فهرست مراجع PAGEREF _Toc398636288 h 86

فهرست جداول
TOC h z t “جدول;1” جدول 2-1 برخی از مدل های توسعه یافته در حوزه ماشین بردار پشتیبان (به ترتیب سال تحقیق) PAGEREF _Toc398539752 h 21جدول22 برخی از مطالعات صورت گرفته در حوزه مرتبط با توابع کرنل در ماشین بردار پشتیبان( ترتیب سال تحقیق) PAGEREF _Toc398539753 h 25جدول3-1 نسبتهای مالی استفاده شده PAGEREF _Toc398539754 h 44جدول4- 2 نرخ سود سپرده گذاری یکساله PAGEREF _Toc398539755 h 58جدول4- 3 تعداد داده هر دسته در رویکرد DEA PAGEREF _Toc398539756 h 60جدول4- 4 تعداد داده خوشه های دسته(1-،1،1-) PAGEREF _Toc398539757 h 60جدول4- 5 تعداد داده خوشه های دسته(1-،1-،1-) PAGEREF _Toc398539758 h 61جدول4- 6 تعداد داده های دسته های مبتنی بر رویکردCAPM PAGEREF _Toc398539759 h 61جدول4- 7 تعداد داده های خوشه های دسته(1،1) PAGEREF _Toc398539760 h 62جدول4- 8 تعداد داده خوشه های دسته(1،1-) PAGEREF _Toc398539761 h 62جدول4- 9 تعداد داده خوشه های دسته(1،1-) PAGEREF _Toc398539762 h 63جدول4- 10 تعداد داده های خوشه های دسته (1-،1-) PAGEREF _Toc398539763 h 63جدول4- 11 نتایج حاصل از اجرای مدل برحسب بازده PAGEREF _Toc398539764 h 65جدول4- 12 نتایج حاصل از دسته بندی بر حسب ریسک برای کلاس 1 بازده PAGEREF _Toc398539765 h 66جدول4- 13 نتایج دسته بندی برحسب ریسک برای کلاس1- بازده PAGEREF _Toc398539766 h 66جدول4- 14 نتایج حاصل از دسته بندی بر حسب نقدشوندگی برای دسته(1،1) PAGEREF _Toc398539767 h 67جدول4- 15نتایج دسته بندی بر حسب نقدشوندگی برای دسته(1،1-) PAGEREF _Toc398539768 h 68جدول4- 16نتایج دسته بندی برحسب نقدشوندگی برای دسته(1-،1) PAGEREF _Toc398539769 h 69جدول4- 17نتایج دسته بندی برحسب نقدشوندگی برای دسته(1-،1-) PAGEREF _Toc398539770 h 69جدول4- 18عملکرد مدل برای هر دسته مبتنی بر رویکرد DEA PAGEREF _Toc398539771 h 71جدول4- 19 نتایج دسته بندی برحسب بازده انتظاری PAGEREF _Toc398539772 h 72جدول4- 20نتایج دسته بندی برحسب نقدشوندگی برای کلاس 1 بازده انتظاری PAGEREF _Toc398539773 h 72جدول4- 21 نتایج دسته بندی بر حسب نقدشوندگی برای کلاس1- بازده انتظاری PAGEREF _Toc398539774 h 73جدول4- 22عملکرد مدل در هر دسته در رویکرد CAPM PAGEREF _Toc398539775 h 74جدول4- 23 نتایج پرتفو برترین ها CAPM PAGEREF _Toc398539776 h 76جدول4- 24 نتایج پرتفو حاصل از 25% برتر سهام ها مبتنی بر رویکرد CAPM PAGEREF _Toc398539777 h 76جدول4- 25 نتایج پرتفو حاصل از برترین های مبتنی بر DEA PAGEREF _Toc398539778 h 77جدول4- 26 نتایج پرتفو حاصل از 25% برتر مبتنی بر DEA PAGEREF _Toc398539779 h 77جدول4- 27 سهام ها حاضر در پرتفو بهینه ارائه شده PAGEREF _Toc398539784 h 78جدول4- 28 نتایج حاصل از پرتفوی کل بازار PAGEREF _Toc398539785 h 79جدول4- 29 نتایج حاصل از تشکیل پرتفو به روش مارکویتز PAGEREF _Toc398539786 h 80
TOC h z t “ترم;1”
فهرست شکل ها
شکل 2-1 تفکیک داده ها در حالت تفکیک پذیر خطی PAGEREF _Toc398540064 h 16شکل 2-2 تفکیک داده ها در حالت تفکیک ناپذیر خطی PAGEREF _Toc398540065 h 18شکل 2-3 ماشین بردار پشتیبان غیر خطی PAGEREF _Toc398540066 h 23شکل3- 1 طرح کلی مدل PAGEREF _Toc398540067 h 42شکل3-2 مدل مفهومی ماشین بردار پشتیبان سلسله مراتبی PAGEREF _Toc398540068 h 50جدول4- 1 انواع ورودی و خروجی های استفاده شده در ادبیات موضوع PAGEREF _Toc398540069 h 57شکل4- 1 مقدار تابع- تکرار دسته بندی برحسب بازده PAGEREF _Toc398540070 h 65شکل4- 2 مقدار تابع-تکرار دسته بندی کلاس1 بازده برحسب ریسک PAGEREF _Toc398540071 h 66شکل4- 3 مقدارتابع-تکرار برای دسته بندی بر حسب ریسک کلاس1- بازده PAGEREF _Toc398540072 h 67شکل4- 4 مقدارتابع-تکرار دسته بندی بر حسب نقدشوندگی برای دسته(1،1) PAGEREF _Toc398540073 h 68شکل4- 5مقدارتابع-تکرار دسته بندی برحسب نقدشوندگی برای دسته(1،1-) PAGEREF _Toc398540074 h 68شکل4- 6 مقدارتابع-تکرار دسته بندی برحسب نقدشوندگی برای دسته(1-،1) PAGEREF _Toc398540075 h 69شکل4- 7 مقدار تابع-تکرار دسته بندی بر حسب نقدشوندگی برای دسته(1-،1-) PAGEREF _Toc398540076 h 70شکل4- 8 مقدارتابع-تکرار دسته بندی بر حسب بازده انتظاری PAGEREF _Toc398540077 h 72شکل4- 9مقدار تابع-تکرار برحسب نقدشوندگی برای کلاس 1 بازده انتظاری PAGEREF _Toc398540078 h 73شکل4- 10 مقدار تابع-تکرار بر حسب نقدشوندگی برای کلاس1- بازده انتظاری PAGEREF _Toc398540079 h 73
فصل 1: مقدمه و کلیات تحقیق
1 -1 مقدمهدر زمینه تحقیقات سرمایه گذاری در بازار سهام و تشکیل پرتفو مدلهای کمی امکان پذیری وجود دارد. که شامل روشهای پدید آمده از محاسبات نرم افزاری برای پیش بینی سری زمانی مالی و بهینه سازی چند هدفه نرخ بازگشت سرمایه و کاهش ریسک میباشد. علاوه بر این انتخاب ابزارهای مالی برای مدیریت پرتفو مبتنی بر رتبه بندی داراییها با استفاده از انواع مختلف دادههای ورودی و دادههای تاریخی نیز جزیی از روشهای استفاده شده است. از میان همه اینها انتخاب سهام مدت طولانی است که به عنوان یک کار چالش برانگیز و مهم شناخته شده است. این خط از تحقیق بسیار مشروط بر رتبه بندی سهام مطمئن برای ساختن پرتفو است. پیشرفتهای اخیر در یادگیری ماشین و داده کاوی منجر به وجود آمدن فرصتهای قابل توجهی برای حل این مشکلات به صورت موثرتری گردیده است. در این پایان نامه مدلی ارائه شده است که با استفاده از ماشین بردار پشتیبان و خوشه بندیو تحلیل پوششی داده ها ضمن پیش بینی، سهامهای برتر را در قالب پرتفو انتخاب مینماید.
1-2 هدف از پایان نامههدف از این پایان نامه ارائه مدلی جهت تشکیل سبد سرمایه با توجه به تحلیل بنیادی و استفاده از عملکرد مالی آنها است. توضیح بیشتر آنکه با استفاده از نسبتهای بدست آمده از صورت گزارشهای مالی و نیز تکنیک ماشین بردار پشتیبان و خوشهبندی که در حوزه دادهکاوی قرار می گیرند، ابتدا به آموزش سیستم یادگیری روی آورده شده است و سپس با پیشبینی سهامهای برتر سبد سرمایه را تشکیل داده شده است. ارائه این مدل کمک شایان توجهی به سرمایهگذاران در بازار سرمایه می نماید. زیرا آنان همواره به دنبال مدلی هستند که ضمن در نظر گرفتن اهداف و ارجحیتهای آنان به میل ذاتی آنان در جهت اقدام فعال و زودهنگام در مقابل اقدامات منفعلانه پاسخگو باشد.
این جمله که “تاریخ تکرار میشود.” و نیز تکیه بسیاری از تحقیقات در زمینه پیشبینی بر دادههای تاریخی، گواه این امر است که استفاده از مجموعه دادههای تاریخی امری متداول و ارزشمند برای اقدامات فعالانه است. خصوصا با توجه به اینکه مبنای تحلیل بنیادی بر استفاده از دادههای معنادار صورتهای مالی است.
در مجموع اینکه در این پایان نامه به پاسخگویی در جهت رتبه بندی سهامهای بازار سرمایه و پیش بینی رتبهی سهامهای موجود بر اساس روند مالی سال اخیر و نیز سهامهای تازه وارد به بازار سرمایه پرداخته شده است. و در نهایت پرتفوی بهینه از دل این سهامهای منتخب تشکیل شده است.
1-3 توضیح موضوع تحقیقهمواره یکی از چالشهای بحث برانگیز سهامداران و سرمایهگذاران بازار سرمایه کسب حداکثری سود است. از طرفی باتوجه به گستردگی و تنوع و پیچدگی معاملات این خواسته با اهداف دیگری در تعارض است، که گاه موجب میشود کسب سود بیشتر در تعارض با اهدافی مثل ریسک بیشتر یا نقدشوندگی پایینتر در حاشیه قرار گیرد. در واقع این جایگاه سرمایه گذار و ارجحیت ذهنی آن است که دستیابی به سود حداکثری را تعیین میکند. در جهت رفع نیاز و برآورد کردن خواسته های سرمایه گذاران برخی مستقیما به دنبال تشکیل پرتفوهای چندهدفه برای متنوع سازی و در نظرگیری ترجیحات سرمایهگذاران برآمدهاند. اما خطی از تحقیقات با نگاه ریزبینانهتر به انتخاب سهام پرداختهاند. و توجیه آنها این است که پرتفوی بهینه از سهامهای منتخب برتر تشکیل مییابد. علاوه بر این مزیت انتخاب سهام در این است که میتوان از سهامهای برتر برای جایگرینی سهام در بازبینی پرتفو استفاده نمود.
در این پایان نامه با در نظرگیری ترجیحات سرمایه گذاران در قالب تکنیک دسته بندی ماشین بردار پشتیبان به پیشبینی رتبهی سهامهای بورس اوراق بهادار تهران پرداخته شده است. سپس از میان این سهامها پرتفو بهینه تشکیل شده است. علاوه بر این با توجه به اینکه از یکی از تکنیکهای یادگیری ماشین استفاده شده است میتوان به سرمایه گذاران راهکاری در جهت نحوه اقدام در برابر سهامهای تازه راه یافته به بازار داده شود. این پیش بینی بر مبنای تحلیل بنیادی و نسبتهای مالی شرکتهاست.
1-4 توجیه ، انگیزه و علت انتخاب موضوعبا توجه به اینکه در سالهای اخیر رشد و رونق اقتصادی در صدر برنامههای توسعه اقتصادی کشور قرار گرفته است. و یکی از مهمترین برنامهها استفاده از سرمایههای غیرمولد در جهت راه اندازی تولید است. نگاه به بازار سرمایه با توجه به اینکه مناسبترین ابزار در جهت تامین مالی بنگاههای اقتصادی است بسیار ویژه شده است. خصوصا آنکه با استفاده از فضای رسانهای فرهنگ اینکه بجای سپردهگذاری در بانک مردم پولهای خود را روانه بازار سرمایه نمایند در بین بسیاری از مردم جاافتاده است. سوددهی بسیار بالای بورس اوراق بهادار تهران در سال گذشته این موضوع را بیشتر مورد توجه قرار داده است. از طرفی پیچیدگیهای موجود در بازار سرمایه موجب شده است این متقاضیان جدیدالورورد نیاز به استفاده از مدلهایی داشته باشند که ترجیحات آنان را درنظر بگیرد. ترجیحاتی مانند نقدشوندگی بالای سهامهایی که خریداری می شوند. علاوه بر این خط تحقیقی تشکیل سبد سرمایه در تمام دنیا به دلیل جذابیت این بازار مالی همواره پرتحرک بوده است و مخاطبین زیادی را به خود مشغول داشته است. همین موارد سبب گشته که ما به سمت تشکیل سبد سرمایه بهینه برویم و رویکردی را در این راه به خدمت بگیریم، که علاوه بر تشکیل سبد سرمایه به سرمایه گذاران قدرت مانور بیشتر در بازار در برابر سهامهای تازه وارد شده به بورس بدهیم. البته باید توجه به این کرد که ما از دادههای صورتهای مالی استفاده کردهایم، و میدانیم که درتحلیل بنیادی نگاه سرمایه گذاران بلند مدت است. لذا پیشبینی نیز بلندمدت است. این موضوع را نمیتوان تهدید دانست زیرا در ادبیات بازار سرمایه معمولا نگاه بلندمدت به بازار دارند و نمود آن را میتوان در بازبینیهای متداول دورهای سبد سرمایه برای سرمایه گذاران خرد دید. و همچنین این مدل قابلیت آن را داراست که بجای استفاده از دادههای صورتهای مالی با استفاده از تحلیل تکنیکال و اندیکاتورهای آن حتی به پیش بینی روزانه و رتبه بندی سهامها بپردازیم. اما همانطور که گفته شد ما بر مبنای تحلیل بنیادی جلو رفتهایم و دید بلند مدت داریم. که سبب کاهش هزینههای معاملاتی میشود.
1-5 اهمیت موضوعانتخاب سهام و رتبهبندی آن زمینه بسیاری از تحقیقات موجود در بازار سرمایه میباشد. این موضوع در کنار رونق بازار سرمایه و ورود سرمایه گذارانی که تجربه کافی در بازار را دارا نیستد،. سبب شده است که در زمینهی رتبهبندی سهامها با توجه به معیارهای سهامداران اقدامات بیشتری صورت پذیرد. لذا به ارائه راهکاری جهت رتبه بندی سهام و در نهایت تشکیل سبد سرمایه پرداخته شده است. در واقع با استفاده از تکنیکهای کمی و ریاضی سهامها را برای سرمایهگذاران رتبهبندی شده است. همچنین تشکیل سبد سرمایه بر مبنای تحلیل بنیادی به گونهای که دید مناسبی به سرمایهگذاران دهد بسیار پر اهمیت است.
1-6 مرور کلی بر ادبیات موضوعانتخاب سبد داراییها شامل بدست آوردن نسبتهای بهینه از داراییها برای ساختن یک پرتفو به گونهای که به ترتیب اولویت سرمایهگذاری باشد. به عنوان یک زمینه مطالعاتی توسط مدل مارکویتز (1952) شروع شد که در آن بازده به عنوان میانگین و ریسک به عنوان واریانس کمی گردیده شدند.
کونو و یامازاکی (1991) از قدر مطلق انحراف معیار و اسپرانزا (1993) از نیم انحراف معیار برای اندازهگیری ریسک در انتخاب پرتفو استفاده کردند. در این مطالعه در انتخاب پرتفو بازده و ریسک به عنوان دو فاکتور اساسی که انتخاب سرمایهگذاری را حاکم می کنند در نظر گرفته شده اند. به هر حال اغلب فهمیده می شود که همه اطلاعات مرتبط برای انتخاب پرتفو نمیتواند در دو اصطلاح ریسک و بازده فقط تسخیر گردد. معیارهای دیگر اگر بیشتر و مهمتر برای سرمایه گذاران نباشند برابر هستند. با در نظر گرفتن این ها در مدل انتخاب پرتفو، ممکن است برای بدست آوردن پرتفویی که در آن از یک کسری حساب از معیارهای بازده و ریسک است به وسیلهی معیار دیگری عملکرد پرتفو بیشتر جبران شود. که در نتیجه رضایت کلی بیشتری برای سرمایهگذاران ایجاد می شود. بنابراین مدلهای انتخاب پرتفو چند معیاره، علاقه زیادی از محققان در گذشته را دریافت کردهاند. مدل هایی که به وسیله آرناز و همکاران (2001)، ارگوت و همکاران (2004)، فنگ و همکاران (2006) و گوپتا و همکاران (2010) مطالعه شدهاند. همچنین میتوان به استفاده از مدلهای بهینهسازی در تصمیمگیریهای مالی مراجعه نمود. در بازارهای سرمایهگذاری مالی،چندین دارایی متفاوت از جمله سهامها، اوراق قرضه،ارزهای خارجی، اختیارات، املاک و مستغلات و قراردادهای آتی برای معامله کردن در دسترس هستند. باید توجه نمود که دارایی های مختلف ممکن است ویژگی های متمایزی با هم در برابر معیارهای مالی بدهند.از آنجا که همه دارایی های مناسب با هریک از سرمایهگذارهای داده شده در بازار نخواهد بود، مطلوب است که این دارایی ها را در کلاسهای متفاوتی بر اساس چند ویژگی از پیش تعریف شده طبقهبندی کنیم.(گوپتا و همکاران،2011) علاوه بر این، بر اساس اولویتهای سرمایهگذاری نیاز به انتخاب چند دارایی با کیفیت خوب از کلاسهای داده شده برای ساخت یک پرتفو بهینه می باشد. در سناریوی دنیای واقعی، مشاوران مالی و شرکتهای سرمایهگذاری با استفاده از تکنیک های مختلف به سرمایه گذاران مشخصات را می دهند و سپس یک مجموعه مناسب از داراییهایی که از آن پرتفوی بهینه ساخته میشود را توصیه میکنند.
یک مشخصه مهم که SVM را یک ابزار امیدوار کننده میسازد برای اجرای مینیمم نمودن ساختار ریسک که با هدف به حداقل رساندن یک محدوده در خطای تعمیم نسبت به خطای تجربی است. و آن تلاشی است برای ساخت یک ابرصفحه جدا کننده بهینه با تبدیل تابع هدف غیر خطی به یک فضای ویژگی با ابعاد بالا و در نتیجه عملکرد تعمیم خوبی در طیف گستردهای از مسالهها را دارد. ازجمله کارهای صورت گرفته در انتخاب سهام با استفاده از SVM به مدل فن و پالانیسوامی (2011) در بورس استرالیا، مدل گوپتا و همکاران(2011) در بورس بمبئی هند و مدل هوانگ(2011) در بورس اوراق بهادار تایوان اشاره نمود.
1-7 جنبه های نوآوری موضوعدر مدل های پیشین تشکیل سبد سرمایه تنها به معیارهایی همچون بازده و ریسک توجه میشده است. در مدل ارائه شده بر مبنای تحلیل بنیادی به تشکیل سبد سرمایه پرداختیم. یعنی علاوه برتوجه به معیارهایی مانند بازده، ریسک و نقدشوندگی عملکرد مالی شرکتها در طی سالیان گذشته نیز جهت بهینهسازی سبد سرمایه استفاده شده است. این مدل با استفاده از ماشین بردار پشتیبان منطق ریاضی آن را مدنظر قرار داده است و فاصله نقاط در فضا با ابرصفحهی این دستهبند را جهت رتبه بندی سهامها استفاده کردهایم. همچنین در این پایان نامه مشخصه سال را که فاصلهی اقلیدسی از آن معنادار است به جهت نقش دادن تغییرات فصلی به مشخصههای بررسی شده تاکنون اضافه نمودهایم.
1-8 پرسشها و سوالات اصلی تحقیقپرسشها و سوالات اصلی تحقیق را میتوانیم در موارد زیر خلاصه نمائیم:
چگونه یک سبد سرمایه بهینه بر مبنای تحلیل بنیادی تشکیل دهیم؟
چگونه بر اساس صورتهای مالی یک شرکت عملکرد سهام را پیش بینی کنیم؟
چگونه به دستهبندی کمی سهامها با توجه به معیارهای سهامداران بپردازیم؟
چگونه کیفیت دادههای استفاده شده را بالا ببریم؟(حذف مشاهدات زائد)
عملکرد رتبهبندی بین روش DEA و مدل CAPM چگونه است؟
آیا پرتفوی تشکیل شده از این روش دارای عملکرد بهتری نسبت به مدل ریاضی چندهدفه ومیانگین بازده بازار است؟
1-9 روش و متدولوژی تحقیقدر این تحقیق با استفاده از نسبتهای مالی بدست آمده از صورتهای مالی مجموعه داده آموزشی شکل گرفته است. سپس با استفاده از مقادیر بدست آمده از بازده، ریسک، نقدشوندگی و بازده انتظاری برای هر سهم که نحوه محاسبهی آن به تفصیل در فصل سوم آمده است و تکنیک تحلیل پوششی دادهها به دستهبندی سهامها پرداخته شده است. با این معیار که واحدهای کارا در دسته خوب و واحدهای ناکارا در دسته بد جای میگیرند. پس از آن جهت حذف مشاهدات زائد از تکنیک خوشهبندی K-means استفاده شده است. و از بین خوشههای هر دسته، خوشهای که دارای حجم حداکثری دادهها بوده است انتخاب شده است. بدین ترتیب دادههای زائد حذف شده سپس مدل توسط ماشین بردار پشتیبان حل شده است. پس از این مرحله دادههای دستهبندی نشده را جهت پیشبینی دسته وارد ماشین بردار پشتیبان میشود. با تعیین مشخصات ابرصفحهها فاصله اقلیدسی این دادهها از ابرصفحهها اندازه گرفته شده است. و نهایتا بر اساس این فاصلهها سهامهای دستهبندی شده رتبهبندی شده است. و در آخر با تشکیل سبد سرمایههای مبتنی بر رویکرد ارائه شده پرتفوی با بهترین عملکرد را به عنوان پرتفوی انتخاب شده برای سال بعد معرفی گردیده است.
1-10 نتایج مورد انتظاراز نتایج مورد انتظار موارد زیر را میتوان نام برد:
سبد سرمایه تشکیل شده از این روش دارای عملکرد بهتری نسبت به میانگین بازار داشته باشد.
عملکرد رویکرد مبتنی بر DEA بهتر از مدل CAPM است.
پرتفو تشکیل شده از میان 25% برتر بازده بالاتری نسبت به دسته بهترینها داشته باشد.
سبد سرمایه تشکیل شده از این متد عملکرد بهتری نسبت به پرتفو تشکیل شده از مدل ریاضی چندهدفه داشته باشد.
1-11 کاربرد های تحقیقاین تحقیق زمینه بسیار مناسبی پیش روی فعالیت فعالان اقتصادی باز میکند. بازار سهام مملو از اطلاعاتی است که سهمها در اختیار معاملهکنندگان قرار میدهند. بهرهگیری از این اطلاعات مستلزم داشتن دانش مفید در جهت استفاده از آنان میباشد. این تحقیق ارزش ویژهای برای این امر قائل شده است. چرا اینکه با بهرهگیری از تکنیک یادگیرنده ودستهبندی کننده ماشین بردار پشتیبان سعی در استفاده مناسب از دادههای موجود و تحلیل بنیادی جهت تشکیل پرتفو بهینهای برآمده است. همچنین این حوزه تحقیقاتی به دلیل اینکه تازه در ادبیات بهینهسازی پرتفو وارد شده است زمینه بسیار مناسبی برای محققین بازارهای مالی در جهت رشد استفاده از تکنیکهای یادگیری ماشین داراست.
1-12 چارچوب پایان نامهچارچوب کلی فصل های پایان نامه بدین صورت می باشد که ابتدا در فصل دوم به معرفی ماشین بردار پشتیبان، انواع آن، کارهای انجام گرفته در توسعه آن پرداخته شده است. همچنین با توجه به استفاده از تکنیکهای خوشه بندی و تحلیل پوششی دادهها معرفی کوتاهی روی آنان شده است. مرور بر پیشینه تحقیقاتی دادههای بنیادی استفاده شده جهت پیش بینی در تحقیقات مربوط به بازار سرمایه نیز در این فصل آمده است. در فصل سوم به تفصیل مدل ارائه شده و کارهای انجام شده در روند حل مدل توضیح داده شده است. در فصل چهارم توضیحی روی دادههای استفاده شده از بورس اوراق بهادار تهران و نتایج به دست آمده از اجرای این مدل روی این سهامها پرداختهایم. همچنین در این فصل ارزیابی نتایج بدست آمده از این مدل با مدل چندهدفه و متوسط بازده بازار بررسی شده است. در فصل پنجم نیز چکیده ای از فصول قبل، نتیجهگیری و پیشنهاداتی برای تحقیات آینده در این زمینه ارائه شده است.
1-13 جمع بندیامروزه انتخاب سبد سرمایه و یا بهینهسازی آن یکی از چالش برانگیزترین بحثهای پیش رو در بازار سرمایه است. همواره سرمایهگذاران به دنبال یافتن مدلی هستند که بتوانند در آن ترجیحات سرمایهگذاری مناسب با خویش را ببینند. ولی به دلیل پیچیدگی بازار معیار اندازه شده مشخصی برای همه آنها ندارند.(مانند ریسک) در این پایان نامه مدلی ارائه شده است که ضمن در نظرگیری ترجیحات سرمایهگذاران آنان را نیز از این قید معیار مشخص کننده برهاند. در این راه با رتبهبندی سهامها کمک شایان توجهی به آنان در بازار سرمایه شده است. همچنین این مدل به آنان قابلیت تصمیمگیری در برابر گزینههای جدید در بازار را میدهد. در فصل آینده به مرور ادبیات و پیشینهی تحقیقاتی روشهای استفاده شده در مدل پرداخته شده است.
فصل دوم: مروری بر تحقیقات پیشین
2-1 مقدمهدر این فصل ضمن معرفی انواع ماشین بردار پشتیبان مروری بر کارهای انجام شده در این حوزه نیز شده است. همچنین با توجه به کاربرد توابع کرنل در دستهبندی کننده ماشین بردار پشتیبان مروری نیز بر کارهای انجام شده در این حوزه داریم. از آنجا که از تکینیک تحلیل پوششی دادهها جهت مشخص کردن برچسب دستهها و نیز الگوریتم K-means جهت مشخص کردن دادههای غیر مرتبط استفاده شده است معرفی اجمالی نیز از این دو تکنیک شده است. یکی از بخشهای مهم این تحقیق رسیدن به نسبتهای مالی مناسبی است که اطلاعات آن برای آموزش ماشین مفید باشد. لذا پیشینهی کارهای انجام گرفته در این حوزه نیز بررسی شده است.
مروری بر مفاهیم پایه ماشین بردار پشتیبانابرصفحه ونیم فضاهر ابرصفحه در محور مختصات دکارتی به صورت رابطه 2-1 تعریف می شود:
H:ωTx+b=0 (2-1)
که در آن بردار نرمال صفحه و مقدار اریبی (در حالت دو بعدی عرض از مبدا) صفحه می باشند.
هر صفحه، فضای خود را به دو نیم فضای مثبت و منفی تقسیم می کند. نیم فضای مثبت را با و نیم فضای منفی را با نشان می دهند. برای نیم فضاها داریم:
(2-2) ωTxi+b>0 ∀xi∈H+ωTxi+b<0 ∀xi∈H-
نرم بردارنرم اُم بردار را با نماد نشان داده و به صورت رابطه 2-3 تعریف می کنند:
(2-3) ϕn=nφ1n+φ2n+…+φmnنرم دوم هر بردار را می توان با نماد (بدون اندیس) نشان داد. نرم دوم بردار در واقع همان اندازه بردار می باشد.
فاصله نقطه از ابرصفحهفاصله متعامد هر نقطه از ابر صفحه عبارتست از اندازه طولی بردار نرمال ابرصفحه تا نقطه مذکور. این فاصله از رابطه 2-4 محاسبه می شود:
(2-4) dxi،H=ωT+bωابرصفحه متعارفیابر صفحه و نقاط را در فضای بُعدی در نظر بگیرید. در اینصورت، ابر صفحه را متعارفی گویند اگر و تنها اگر:
(2-5) mini=1،2،…،nωTXi+b=1انواع ماشین بردار پشتیبان
ماشین بردار پشتیبان یکی از تکنیک های دسته بندی است که بر اساس تئوری یادگیری آماری پایه گذاری و معرفی شده است (وپنیک، 1998). ماشین بردار پشتیبان به دنبال یافتن ابرصفحهای است که با استفاده از آن دادهها را دسته بندی کند. این ابرصفحه به گونهای یافته میشود که حاشیه دسته بندی را حداکثر نماید(ندائی،1391). در حالت اصلی، مدل ماشین بردار پشتیبان برای حالت دو دستهای توسعه داده شد ولی در ادامه رویکردهایی برای حل مدل ماشین بردارپشتیبان در حالت چند دسته ای نیز ارائه گردید. در ادامه به بررسی مدل ماشین بردار پشتیبان در دو حالت تفکیک پذیر خطی و غیر تفکیک پذیر خطی پرداخته خواهد شد.
مدل داده های تفکیک پذیر خطیدر این حالت، هدف از مدل ماشین بردار پشتیبان یافتن یک ابرصفحه متعارفی است به طوریکه این ابرصفحه دارای بیشترین فاصله از نزدیکترین داده های هر کدام از دسته ها باشد. اگر بتوان داده ها را با استفاده از یک ابرصفحه به طور کامل از هم تفکیک نمود در اینصورت به آن ها تفکیک پذیر خطی گفته می شود. شکل 2-1 این موضوع را به خوبی نشان میدهد. به نقاطی که دارای کمترین فاصله از ابرصفحه مذکور می باشند، بردارهای پشتیبان گفته می شود.
371157526670بردارهای پشتیبان
00بردارهای پشتیبان
371792525654000319786025654000329311025654000
شکل 2-1 تفکیک داده ها در حالت تفکیک پذیر خطیبنابراین مدل کلی برای یافتن ابرصفحه ای مطابق با شکل فوق را می توان به صورت رابطه 2-6 نوشت:
(2-6) maxmini=1،…،nd(Xi،H) و محدودیت های مسئله باید به گونه ای باشند که داده های دسته یک در نیم فضای مثبت و داده های دسته دوم در نیم فضای منفی قرار بگیرند. به عبارت دیگر می توان محدودیت های مسئله را از رابطه 2-7 بدست آورد:
(2-7) ωTXi+b≥0 ∀Xi∈class 1ωTXi+b≤0 ∀Xi∈class 2
از آنجایی که ابرصفحه دسته بند در ماشین بردار پشتیبان متعارفی است. فاصله هر کدام از بردارهای پشتیبان تا ابر صفحه متعارفی طبق رابطه 2-4 و 2-5 برابر عبارت 2-8 است:
(2-8) ωTXi+bω=1ω ∀ support vector ∈class 1ωTXi+bω=-1ω ∀ support vector∈class 2بنابراین حاشیه دسته بندی از رابطه 2-9 محاسبه می شود:
(2-9) 1ω-1ω=2ωتابع هدف ماشین بردار پشتیبان به فرم رابطه 2-9 به صورت ماکزیمم سازی حاشیه تشکیل می گردد. همچنین از آنجایی که ابرصفحه موجود در ماشین بردار پشتیبان به صورت متعارفی می باشد، محدودیت های مسئله با تعریف متغیری به نام مطابق رابطه 2-10 قابل بازنویسی خواهد بود:
(2-10) yi(ωTXi+b)≥1
که در آن برای متغیر داریم:
(2-11) yi=1 ∀xi∈class 1yi=-1 ∀xi∈class 2
بنابراین، مدل نهایی ماشین بردار پشتیبان در حالت تفکیک پذیر خطی به صورت رابطه 2-12 خواهد بود.
(2-12) min 12ω2yiωTXi+b≥1 i=1،2،…،n
که در آن ω و b آزاد در علامت اند.
مدل2-12 یک مدل برنامه ریزی ریاضی محدب درجه دو است. برای حل چنین مدلی، الگوریتم های بسیار زیادی توسعه یافته اند. برخی از روش های حل این دسته از مسائل توسط فلچر (1988)، مانگاساریان(1994) و بازارا و همکاران (1992) بررسی شده اند که از میان آن ها می توان از روش لاگرانژین و یا شرط بهینگی کاروش کوهن- تاکر استفاده نمود. تابع لاگرانژین مسئله مذکور به صورت رابطه 2-13 خواهد بود:
(2-13) Lpω،b،α=12ω2-i=1nαi[yiωTXi+b-1]
با گرفتن مشتق نسبت به متغیرهای تصمیم خواهیم داشت:
(2-14) ∂Lp∂ω=0→ ω=i=1nαiyixi ∂Lp∂b=0→ 0=i=1nαiyi (αi≥0)
با استفاده از روابط فوق می توان مقدار را محاسبه نمود. اما برای محاسبه از رویکرد دیگری استفاده می نماییم. همانطور که ذکر شده برای نقاط بردار پشتیبان داریم:
(2-15) yiωTXi+b=1
بنابراین می توان نوشت:
(2-16) yi∈+1→minωTXi+b=1→b=1-minωTXi yi∈-1→minωTXi+b=-1→b=-1-max⁡(ωTXi)با جمع دو رابطه فوق می توان نتیجه گرفت:
(2-17) b=12(minyi∈+1(ωTXi)+maxyi∈-1(ωTXi))
البته از آنجایی که در حل مسئله با ابعاد بالا، الگوریتم های معمول سرعت کافی ندارند، به عنوان روشی توسعه یافته می توان مسئله برنامه ریزی محدب درجه دو را با استفاده از مسئله برنامه ریز خطی تخمین زد. برای مدل ماشین بردار پشتیبان این کار توسط برخی پژوهشگران صورت پذیرفته است (یاجیما، 2005).
مدل داده های تفکیک ناپذیر خطیاگر داده ها را نتوان با یک ابرصفحه به طور کامل جداسازی نمود، در این صورت برخی از محدودیت های مدل 2-12 نشدنی می گردند. به عبارت دیگر مدل 2-12 دارای حل شدنی نخواهد بود.
279781094551500
شکل 2-2 تفکیک داده ها در حالت تفکیک ناپذیر خطیبنابراین با استفاده از یک متغیر تصمیم جدید (از جنس متغیر مصنوعی) مسئله را شدنی می کنیم. این متغیرهای تعریف شده، حتی الامکان باید برابر صفر باشند. بنابراین در تابع هدف نیز آن ها را به فرم حداقل سازی به مسئله اضافه می کنیم. با این کار مسئله دارای دو تابع هدف خواهد بود:
(2-18) min 12ω2 mini=1nξi yiωTXi+b≥1-ξiξi≥0
اگر ضرب داخلی بردار گرادیان دو تابع هدف برابر صفر باشد در این صورت می توان کلیه توابع هدف را به صورت یک جندجمله ای در نظر گرفته و مدل را با یک تابع هدف حل نمود. برای مدل 2-18 شرایط مذکور برقرار است:
(2-19) min 12ω2+Ci=1nξiyiωTXi+b≥1-ξi ξi≥0
که در آن ، متغیر جریمه مربوط به خطای دسته بندی می باشد. همچنین ، میزان انحراف هر کدام از داده ها را به نسبت ابرصفحه دسته بند تعیین نموده و به صورت زیر تفسیر می شود:
ξi=0 : دسته بندی صحیح
0<ξi<1 : دسته بندی صحیح ودرون حاشیه
ξi>1 : خطای دسته بندی
بنابراین با توجه به شکل 2-2 می توان نوشت:
ξ1=00<ξ2<1ξ3>1انتخاب پارامترهای موجود در مدل ماشین بردار پشتیبان بسیار حائز اهمیت می باشد و تغییر در مقدار آنها می تواند باعث تغییر سرعت همگرایی الگوریتم حل مسئله گردد. از این رو مطالعاتی در حوزه نحوه رفتار مدل برحسب تغییر مقادیر پارامترها انجام شده است (گومز و همکاران، 2012). به صورت خلاصه می توان نتیجه گیری نمود که اگر مقدار زیاد باشد مسئله به خطای دسته بندی حساس شده و سرعت همگرایی الگوریتم حل افزایش می یابد. همچنین اگر مقدار کاهش یابد مسئله حساسیت کمتری به خطای دسته بندی داشته و سرعت حل مسئله افزایش پیدا می کند.
با توجه به اینکه ماشین بردار پشتیبان در مقیاسهای حجیم دارای سرعت قابل قبول نمیباشد، مدلهای توسعه یافتهتری برای حل این مشکل معرفی شدهاند. از آن جمله میتوان به ماشین بردار پشتیبان مبدایی ژو و همکاران(2012)، ماشین بردار پشتیبان دوگانه(پنگ و زو 2012- شاو و دنگ2012- پنگ2011) اشاره نمود. یکی دیگر از مهمترین مباحث در ماشین بردار پشتیبان انتخاب مشخصه میباشد. در این مدلها همزمان با یافتن ابرصفحه دسته بند، به انتخاب مشخصههای مهم نیز پرداخته میشود. در این حوزه نیز مطالعات بسیاری صورت گرفته است که از آن جمله میتوان به پژوهشهای بردلی و مانگاساریان(1993)، ژو و همکاران(2003) اشاره نمود همچنین به عنوان یک رویکرد تطبیقی، لیو و همکاران(2007) روشی را ارئه نمودند که در آن برای انتخاب مشخصه دادههای دارای اغتشاش نیز اهمیت داشتند. در روش آنها نرخ خطا به ساختار داده نیز بستگی دارد هسو و همکاران(2011) مدلی را برای انتخاب مشخصه ارائه نمودند که در آن انتخاب و عدم انتخاب هر مشخصه دارای هزینه نامتعادل بود. به عبارتی عدم انتخاب هر مشخصه نیز هزینههای خاصی را به مدل تحمیل مینمود. در این مدل از رویکرد بیزین استفاده شد.
کاریزوسا و باراگان(2006) مدلی را ارائه دادند که در آن هدف اصلی حداکثر نمودن حاشیه میباشد. این مدل با دو تابع هدف ارائه گشت و برای آن حلهای پاراتویی نیز ارائه گردید.
ماشین بردار پشتیبان ابرصفحه دستهبندی را یافت میکند که حاشیه آن حداکثر باشد. این ابرصفحه طبق قضایای یادگیری ماشینی بهترین دستهبند خواهد بود. فارغ از این تعریف ژانگ و ژو(2011) مدلی را ارائه نمودند که در آن ابرصفحه دستهبند با توجه به تراکم و چگالی دادهها یافت میشود. برای تعیین میزان تراکم دادهها از الگوریتم نزدیکترین همسایگی استفاده نمودند. در این مدل ابرصفحه دسته بند به سمتی متمایل می شود که تجمع نقاط در آن بیشتر باشد. در این تحقیق نشان داده شد که این رویکرد مانند رویکرد اصلی دقت قابل قبولی داشته در عین حال سرعت یادگیری آن قابل قبولتر است.
ماشین بردار پشتیبان سلسله مراتبی نیز یکی دیگر از روش های نوین ارائه شده برای دستهبندی میباشد. این روش درخت تصمیمی را ارائه میدهد که در آن با استفاده از ماشین بردار پشتیبان خطی نسبت به تقسیم گرهها اقدام میشود.(رودریگز،2012) این رویکرد تنها برای درخت تصمیم دودویی که در آنها هر گره به دو قسمت تقسیم میشود مناسب است.(ماشین بردار پشتیبان دودستهای برای تقسیمات استفاده میشود.) در غیر اینصورت برای هر تقسیم یک ماشین بردار پشتیبان چند دستهای مورد نیاز میباشد. که این مطلب موجب پیچیدگی بیش از حد مساله میشود. شایان ذکر است که ماشین سلسله مراتبی برای درخت تصمیم چندگانه که در آن هر گره به بیش از دو شاخه تقسیم شود ارائه نشده است.
شکل 2-3 مجموعه داده دستهبندی شدهای را نشان میدهد که مربوط به موز است. این مجموعه داده دارای دو ویژگی است که میتواند در فضای دوبعدی نشان داده شود. با استفاده از ماشین بردار پشتیبان خطی ابرصفحه دستهبند پیدا شده و در این شکل نمایش داده شده است. دقت عملکرد ماشین بردار پشتیبان خطی در این مثال83/52% میباشد. این مجموعه داده مثال خوبی برای دادههای تفکیکناپذیر خطی است.
5690482602777شکل 2-3 نمودار ماشین بردار پشتیبان خطی مجموعه داده موزشکل 2-3 نمودار ماشین بردار پشتیبان خطی مجموعه داده موز
به عنوان جمع بندی برخی از مدل های توسعه داده شده در حوزه ماشین بردار پشتیبان در جدول 2-1 خلاصه شده اند:
جدول 2-1 برخی از مدل های توسعه یافته در حوزه ماشین بردار پشتیبان (به ترتیب سال تحقیق)نام محقق سال انتشار ایده پایه
بردلی و مانگاساریان 1998 هزینه انتخاب مشخصه
جدول 2- 1 (ادامه) برخی از مدل های توسعه یافته در حوزه ماشین بردار پشتیبان (به ترتیب سال تحقیق)
پلت 1999 استفاده از روش حل متوالی مسئله درجه 2 در حل مدل ماشین بردار پشتیبان
سویکنس و همکاران 2003 استفاده از ماشین بردار پشتیبان در تحلیل مولفه های اصلی
وورال و دی 2004 ماشین بردار پشتیبان سلسله مراتبی
کاریزوسا و همکارن 2006 حداکثر سازی حلشیه (همزمان بر روی هر دو دسته)
فی و لیو 2006 مدل درخت تصمیم برای ماشین بردار پشتیبان
لیو و همکاران 2007 هزینه انتخاب مشخصه و خطای تطبیقی
اویایو و همکاران 2007 آموزش مدل با الگوریتم مبتنی بر تجزیه با مرتبه زمانی چند جمله ای
لی و همکاران 2009 حساسیت هزینه
ژانگ و همکاران 2010 استفاده از توابع سیگنوم پیچیده در فضای اعداد مختلط
سویکپ 2010 الگوریتم جدید خوشه بندی در ماشین بردار پشتیبان با رویکرد سلسله مراتبی
مالدونادو و همکاران 2011 انتخاب مشخصه با توابع کرنل
ژانگ و ژو 2011 دسته بندی بر اساس تراکم داده ها
رودریگز 2012 ماشین بردار پشتیبان سلسله مراتبی توسعه یافته
توابع کرنلبعضی اوقات ممکن است نتوان داده ها را به صورت خطی از هم جداسازی نمود. به عبارت دیگر با استفاده از مدل 2-19 نمی توان به دقت قابل قبولی دست یافت. در این صورت استفاده از ماشین بردار پشتیبان خطی کارآمد نخواهد بود. لذا با استفاده از تابعی به نام تابع کرنل داده ها را به فضایی با ابعاد بالاتر و یا در بعضی مواقع به فضایی با بعد بی نهایت نگاشت مینماییم. در این فضا دادهها با استفاده از ماشین بردار پشتیبان خطی، قابل دستهبندی خواهند بود. در واقع با استفاده از نگاشت غیر خطی، هم بُعد فضا و هم فاصله نقاط در فضا تغییر یافته و لذا ابرصفحه دستهبند به صورت مناسبتری در میان دو دسته موجود مکانیابی میشود (ندائی،1391). بنابراین در توابع کرنل به طور کلی دو کار اصلی انجام میشود. اولا اینکه دادهها به چه بُعدی انتقال یابند و دوما اینکه در فضای جدید، مختصات هر یک از نقاط چگونه تغییر کنند.

شکل 2-4 ماشین بردار پشتیبان غیر خطیتابع کرنل یک تابع متقارن به فرم کلی می باشد که داده ها را به فضایی با ابعاد بسیار بالاتر نگاشت می کند. بعضی از توابع کرنل به صورت زیراند:
تابع کرنل خطی:
(2-20) Kxi،xj=xiTxj

تابع کرنل چندجمله ای:
(2-21) Kxi،xj=(γxiTxj+r)d، γ>0
تابع کرنل RBF(گوسین):
(2-22) Kxi،xj=exp-γxi-xj2، γ>0
تابع کرنل سیگموئید:
(2-23) Kxi،xj=tanh⁡(γxiTxj+r)توابع کرنل مذکور، داده ای با n مشخصه را به فضایی با بُعد 2n منتقل می کنند. با این کار یک نگاشت غیرخطی انجام می گردد. بنابراین با ترکیب ماشین بردار پشتیبان با توابع کرنل ، ماشین بردار غیرخطی حاصل خواهد شد. توابع کرنل، انواع متنوعی دارد که برخی از آن ها توسط اوزر و همکاران (2011) و کمپس- والس و همکاران (2003) بررسی شده اند.
شکل 2-5 و 2-6 به ترتیب استفاده از تابع کرنل چندجملهای درجه دوم و درجه سوم و شکل 2- 7 تابع کرنل گوسین(RBF) را جهت دستهبندی مجموعه داده موز را نشان میدهد. خطوط رسم شده در نمودارها تابع کرنل استفاده شده جهت دسته بندی را نشان میدهد. همانطور که در این اشکال مشخص است استفاده از تابع کرنل عملکرد دستهبندی را بهبود بخشیده است.

شکل2- 5 استفاده از تابع کرنل کودراتیک جهت دستهبندی مجموعه داده موز

شکل2- 6 استفاده از تابع کرنل چندجملهای درجه سوم جهت دستهبندی مجموعه داده موز

شکل2- 7 استفاده از تابع کرنل گوسین(RBF) جهت دستهبندی مجموعه داده موز
در برخی از موارد برای عملکرد بهتر ماشین بردار پشتیبان با استفاده از دو یا چند تابع کرنل متوالی نگاشت داده ها انجام می شود. همین مسئله باعث بوجود آمدن توابع کرنل جدیدتری گردیده است که عملکرد بهتری را به نسبت توابع قبلی ایجاد می کند. از آن جمله تابع کرنل جدیدی توسط ژانگ و وانگ (2011) بر اساس تابع آماری لورنتزیان ارائه شده است.
نکته قابل اهمیت دیگر در توابع کرنل انتخاب پارامترهای تابع می باشد. پارامترهای توابع در نگاشت غیر خطی داده ها اثرگذار بوده و بنابراین می توانند دقت دسته بندی را تغییر دهند. در واقع تغییر در پارامتر تابع کرنل فاصله داده ها را در فضای جدید تغییر می دهد. از این رو برخی از پژوهشگران انتخاب پارامتر را برای توابع کرنل مورد بررسی قرار داده اند. در این راستا می توان به تحقیقات وو و وانگ (2009) اشاره نمود. جدول 2-2، به برخی از تحقیقات انجام شده در این حوزه اشاره می کند.
جدول22 برخی از مطالعات صورت گرفته در حوزه مرتبط با توابع کرنل در ماشین بردار پشتیبان( ترتیب سال تحقیق)نام محقق سال انتشار ایده پایه
کمپس والس و همکاران 2004 تابع کرنل سیگموئید فازی
وو و وانگ 2009 انتخاب پارامترهای تابع کرنل
اوزر و همکاران 2011 تابع کرنل چبیشفی
ژانگ و وانگ 2011 تابع کرنل آماری لورنتزیان
همانطور که قبلا نیز ذکر شد، استفاده از توابع کرنل هنگامی مقرون به صرفه است که دقت دسته بندی بسیار پایین بوده و یا بعد از نگاشت دقت دسته بندی تا حد بالایی تغییر کند. زیرا بعد از نگاشت ابعاد مسئله بسیار بالا رفته و سرعت حل تا حد قابل ذکری کاهش خواهد یافت. بنابراین اگر افزایش دقت به سرعت ارجح باشد از توابع کرنل استفاده می شود.
کاربرد ماشین بردار پشتیبان در مدیریت پرتفواز ماشین بردار پشتیبان در زمینه مباحث مالی استفاده زیادی شده است. زیرا این تکنیک به علت توانایی پیشبینی و دستهبندی بصورت همزمان کاربرد فراوانی دارد. از جمله این استفاده ها میتوان به مدلهای پیش بینی ورشکستگی شرکتها مین و لی( 2005) رتبهبندی اعتباری مشتریان بانک یا بیمه، پیشبینی روند بازار سرمایه توسط لین یو و همکاران(2005) پیشبینی قیمت سهام بائو و همکاران(2005) پیشبینی قیمت اختیارات معامله لیانگ و همکاران(2009) و…… نام برد. اما در زمینه تشکیل سبد سرمایه و بهینهسازی پرتفو تعداد مقالات انگشت شماری از ماشن بردار پشتیبان استفاده نمودهاند. اولین بار فن و پالانیسوامی(2001) در بورس استرالیا اقدام به گارگیری این تکنیک نمودند. آنان با استفاده از دادههای 10ساله و بر اساس ماشین بردار پشتیبان دو کلاسه سهامها را دستهبندی نمودند. و با استفاده از 25% سهام برتر در طی پنج سال اخیر پرتفو تشکیل دادند و از این پرتفو بازده خیره کننده 5 برابر شاخص بازار را بدست آوردند.
گوپتا و همکاران(2011) با استفاده از ماشین بردار پشتیبان و الگوریتم ژنتیک مدل کاملی جهت تشکیل پرتفو ارائه نمودند. آنان ابتدا سه کلاس بازدهی بالا، نقدشوندگی بالا و ریسک پایین را تعریف نمودند. که این کلاس ها با استفاده از پرسشنامه و برای هر سرمایهگذار بر اساس ترجیحات ذهنی خودش می باشد. سپس با اجرای ماشین بردار پشتیبان به تشکیل سبد سرمایه با تایع هدف چندگانه پرداختند. آنان برای حل این تابع هدف چندگانه از الگوریتم ژنتیک استفاده کردند.
هوانگ(2011) با استفاده از رگرسیون بردار پشتیبان مدلی را جهت انتخاب سهام ارائه نمود. وی در این مدل به بهینهسازی همزمان پارامترهای مدل وانتخاب مشخصهها پرداخت. و در این راه از الگوریتم ژنتیک بهره جست. در واقع وی با استفاده از رگرسیون بردار پشتیبان جایگزینی برای بازده واقعی پیشبینی نمود. و بر اساس آن سهامها را رتبهبندی نمود.

این نوشته در مقالات ارسال شده است. افزودن پیوند یکتا به علاقه‌مندی‌ها.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *