-
【我是独倾】量化投资的个人浅解(2)----数学篇A
涨涨看市 / 2016-05-09 16:53 发布
劳动节都过去了。答应大家的数学篇迟迟难产,都是个人原因罢了,当然可能写出来并不能达到大家所期望的,或者写出来的东西水分也不是很足,都是一些个人浅解而已,谈不上指导大家。比如上一篇的计算机篇,我写的是自己的学习过程,同样得到广大球友的建议,发现确实Python不错,我也花了很多时间开始学习Python,小清新的界面总是让我无法抗拒,现在网上第三方量化平台也特别多,界面做的确实好看。
言归正传,希望我这个毕业于数学系的不要丢脸了,如果真丢了,那也只是我个人哈,无关数学。有任何问题或者异议,小弟我是虚心接受指导的。
金融市场如此庞大的数据库,肯定需要数学这个最基础的工具的,这个相信大家没有异议吧。首先量化在数据的角度分为P派,Q派,这个是什么大家百度一下。总结一句话就是Q重模型而轻数据,P则重数据而轻模型。小弟我觉得只要是好策略,不管P,Q派都接受,我实战的策略大部分是Q派的,当然P派的也有,同样P,Q结合的也可以。
如果是多年的股民,自己脑袋已经有核心思路,其实可以系统的测测策略。如果纯数学系出生,完全不懂金融市场,同样可以就从数据数学出发做出好策略,我认识很多私募或者团队就是纯数据出发做的很好的,市场那么大,博弈手段很多很多,只要足够高明。
很多人经常问,数学要学到什么样的地步才能做好量化投资啊?量化投资我同样把数学当做一种工具。工具我个人的定义是够用就可以。 那什么样的数学课程会有利于或者说在量化中经常会使用呢?我想这个不需要我回答,大家应该都很清楚。
(1)唱的比较多的数据挖掘,数据挖掘基本就包括了神经网络,决策树,SVM,各种回归等,这些建立的模型是特别注重数据的,往往学出来的结果你是不清楚具体过程的,解释不通。
(2)统计套利,也是完全根据数据统计发现相关品种或者不清楚品种间的套利机会等。
(3)数学的巧妙运用,就像欧拉公式一样如此完美,在数学上进行巧妙的数据变化,也许能得到极好的结果,就像以前做证明题一样一个简单的变化就变得结果如此简单。
(4)以上的那么多点,不管怎么样,其实都是拿现有数据寻找概率分布,然后指导交易。 一.数学的跳跃,巧妙思维下的好策略 这个就是数学功底了,数学的跳跃及灵感的运用,这个完全就是数学积累和敏感度了。
这个是期货上面TB提供的一个简单的策略,首先这个策略在没有公开前,在很多商品期货都是适用有效的,期货策略更新淘汰特别快的,公开了基本那就不能保证有效了。但是第一这个策略会给你很多新的想法(数学上的巧妙变换),其实就是很简单的一个数学平移变换和二次穿越就能达到意想不到的效果。当然现在来看确实没什么惊奇的,其实就是很简单巧妙的变化一下而已,好好发挥想象吧,也许你也能变化出一个好策略。
这就是很简单的策略了,买入卖出,平仓条件十分清楚,没有任何情绪或者模棱两可的东西。
二.数据预处理,十分十分重要的过程
相信很多大券商,大机构,大公司等等都会请专门的数据人员维护处理数据,数据都不能保证正确有效,那后面的研究都是错误的。
发现要讲这个,确实很枯燥啊。
第一,当然看数据的正确性,处理缺失值,处理奇异值。
(1)数据正确性,随记抽几条数据与实际数据对对看对不对,这个基本数据渠道没问题,问题都不大。
(2)缺失值的处理,很多种方法,比如简单暴力的在不影响正确性的情况下直接删除,或者使用上一日数据填充,或者使用之前已有数据的平均数,众数等等代替。
(3)奇异值,同样需要定义何为奇异值,然后找到奇异值,采取上一日替代,或者已有数据多少日平均数,众数替代,其实这个跟缺失值是一个道理。
第二,类别数据的处理,比如行业这种字符数据,可以定义1=“券商”等等
第三,数据的标准化处理,标准化很多种,极大极小值标准化,正太标准化等等
第四,比较重要的,金融数据都是时间序列,做组合或者对应的时候千万别拿到未来了,只能拿历史数据
第五,数据的对应,比如自变量即输入变量是今日的一些指标,输出变量是明日大盘涨幅,这个就需要做错位处理了
等等
三.指标处理
说实在的,因为做模型往往会涉及到很多指标,拿到最原始的数据,每个模型都需要一些指标才能搭建。
其实这里有金融知识,甚至对市场理解够的是有优势的,因为无效的指标太多不好,关键的指标特别重要,往往很多量化机构都是由一些市场经验比较丰富的提供指标给量化数学模型员构建。
指标的选取尤为重要,举个简单的例子,如果我的模型选了一个市值因子,当然这里是需要做一些处理的,因为市场市值相差太大太大(现在看总市值最大的15254亿,最小的20.19亿,除去新股),这样直接拿去做是不合理,首先得对市值进行相应的数学处理,比如最简单的分类处理,最后你会发现这个指标太有用了,有用就是有这个指标做的模型会比没有这个指标做的模型还太多,为什么呢?很简单过去创小板一直强于主板,而且小票特别牛逼。
模型需要这种关键的指标,知其然者当然是最好最好的,能得到解释而且是个稳定的逻辑的就更好更好。假设实习注册制,这个策略还稳定吗?这个逻辑并不是博弈逻辑,是中国A股特色逻辑,现阶段看仍然有效。
这种文字性理论的东西,会把我写累死,而且我感觉都是写到哪扯到哪,好像没什么连贯性或者系统性,这篇我打算分几篇写,因为一篇都是文字会把我累死,或者你们看都不会愿意看。希望评论给点意见该如何写,才好,或者你们想看什么,知道什么?我能回答,能力所及的,都可以。