学点算法搞安全之HMM（上篇）

admin| 2019-3-21 17:54 阅读 129 评论 0

本篇重点介绍HMM最常见同时也比较基础的基于url参数异常检测的应用，后继文章将介绍HMM结合NLP技术在XSS、SQL、RCE方面的应用。”多一个公式少一半读者”，所以霍金的《时间简史》和《明朝那些事》一样畅销，我的机器学习系列文章都是尽量少讲概念，多讲例子，希望可以让机器学习被更多人了解和使用。

HMM基础原理

现实世界中有一类问题具有明显的时序性，比如路口红绿灯、连续几天的天气变化，我们说话的上下文，HMM的基础假设就是，一个连续的时间序列事件，它的状态受且仅受它前面的N个事件决定，对应的时间序列可以成为N阶马尔可夫链。

假设今天是否有雾霾只由前天和昨天决定，于是就构成了一个2阶马尔可夫链，若昨天和前天都是晴天，那么今天是晴天概率就是90%。

稍微再复杂点，假设你想知道2000公里外一个城市的雾霾情况，但是你没法直接去当地看到空气情况，手头只有当地风力情况，也就是说空气状态是隐藏的，风力情况是可观察的，需要观察序列推测隐藏序列，由于风力确实对雾霾情况有较大影响，甚至可以假设风力大的情况下90%概率是晴天，所以通过样本学习，确实可以达到从观察序列推测隐藏序列的效果，这就是隐式马尔可夫。

URL参数建模

常见的基于GET请求的XSS、SQL注入、RCE，攻击载荷主要集中在请求参数中，以XSS为例：

/0_1/include/dialog/select_media.php?userid=%3Cscript%3Ealert(1)%3C/script%3E

正常的http请求中参数的取值范围都是确定的，这里说的确定是指可以用字母数字特殊字符来表示，并非说都可以用1-200这种数值范围来确定。以下面的几条日志为例：

/0_1/include/dialog/select_media.php?userid=admin123
/0_1/include/dialog/select_media.php?userid=root
/0_1/include/dialog/select_media.php?userid=maidou0806
/0_1/include/dialog/select_media.php?userid=52maidou
/0_1/include/dialog/select_media.php?userid=wjq_2014
/0_1/include/dialog/select_media.php?userid=mzc-cxy

肉眼观察可以归纳出userid字段的由字母数字和特殊字符’-_’组成,如果你足够强大可以看完上万的正常样本，甚至都可以总结取值范围为[0-9a-zA-Z-_]{4,}。如果有上亿的日志上百万的参数，人工如何完成？这时候机器学习可以发挥作用了。

以uid字段为例，uid的取值作为观察序列，简化期间可以对uid的取值进行泛化，整个模型为3阶HMM，隐藏序列的状态只有三个S1、S2、S3:

[a-zA-Z]泛化为A
[0-9]泛化为N
[\-_]泛化为C
其他字符泛化为T

admin123泛化为AAAAANNN
root泛化为AAAA
wjq_2014泛化为AAAACNNN

隐藏序列就是S1-S4三个状态间循环转化，这个概率称为转移概率矩阵，同时四个状态都以确定的概率，以观察序列中的A、C、N、T四个状态展现，这个转换的概率称为发射概率矩阵。HMM建模过程就是通过学习样本，生成这两个矩阵的过程。生产环境中泛化需谨慎，至少域名、中文等特殊字符需要再单独泛化。

数据处理与特征提取

由于每个域名的每个url的每个参数的范围都可能不一样，有的userid可能是[0-9]{4，}，有的可能是[0-9a-zA-Z-_]{3,}，所以需要按照不同域名的不同url不同参数分别学习。泛化过程如下：

def etl(str):
    vers=[]
    for i, c in enumerate(str):
        c=c.lower()
        if   ord(c) >= ord('a') and  ord(c) <= ord('z'):
            vers.append([ord('A')])
        elif ord(c) >= ord('0') and  ord(c) <= ord('9'):
            vers.append([ord('N')])
        else:
            vers.append([ord('C')])
    return np.array(vers)

友情提示，为了避免中文等字符的干扰，ASCII大于127或者小于32的可以不处理直接跳过。

从weblog中提取url参数，需要解决url编码、参数抽取等恶心问题，还好python有现成的接口：

with open(filename) as f:
    for line in f:
        #切割参数
        result = urlparse.urlparse(line)
        # url解码
        query=urllib.unquote(result.query)
        params = urlparse.parse_qsl(query, True)
        for k, v in params:
        #k为参数名，v为参数值

友情提示，urlparse.parse_qsl解析url请求切割参数时，遇到’;’会截断，导致获取的参数值缺失’;’后面的内容，这是个大坑，生产环境中一定要注意这个问题。

训练模型

安装hmmlearn

hmmlearn是python下的一个HMM实现，是从scikit-learn独立出来的一个项目，依赖环境如下：

Python >= 2.6
NumPy (tested to work with >=1.9.3)
SciPy (tested to work with >=0.16.0)
scikit-learn >= 0.16

安装命令如下：

pip install -U --user hmmlearn

训练模型

将泛化后的向量X以及对应的长度矩阵X_lens输入即可，需要 X_lens的原因是参数样本的长度可能不一致，所以需要单独输入。

remodel = hmm.GaussianHMM(n_components=3, covariance_type="full", n_iter=100)
remodel.fit(X,X_lens)

训练样本得分为：

score:16 query param:admin123
score:9 query param:root
score:21 query param:maidou0806
score:16 query param:52maidou
score:15 query param:wjq_2014
score:12 query param:mzc-cxy

模型验证

HMM模型完成训练后通常可以解决三大类问题，一类就是输入观察序列获取概率最大的隐藏序列，最典型的应用就是语音解码以及词性标注；一类是输入部分观察序列预测概率最大的下一个值，比如搜索词猜想补齐等；另外一类就是输入观察序列获取概率，从而判断观察序列的合法性。参数异常检测就输入第三种。

我们定义T为阈值，概率低于T的参数识别为异常，通常会把T定义比训练集最小值略大，在此例中可以取10。

with open(filename) as f:
    for line in f:
        # 切割参数
        result = urlparse.urlparse(line)
        # url解码
        query = urllib.unquote(result.query)
        params = urlparse.parse_qsl(query, True)
        for k, v in params：
            if ischeck(v) and len(v) >=N :
                vers = etl(v)
                pro = remodel.score(vers)
                if pro <= T:
                    print  "PRO:%d V:%s LINE:%s " % (pro,v,line)

以userid=%3Cscript%3Ealert(1)%3C/script%3E为例子，经过解码后为<script>alert(1)</script>，范化后为TAAAAAATAAAAATNTTTAAAAAAT，score为-13945，识别为异常。

总结

本文介绍了HMM在web安全的基础应用，由于仅依赖参数的文本特征进行异常检测，虽然理论上只要白样本足够多确实可以识别几乎所有基于GET请求参数的未知攻击，但是由于缺乏语义层面异常检测，误报率比较高。另外扫描器等对结果的影响很大，如何进一步提升检测能力，请看下篇。

低成本玩转硬件安全（一）：BadUSB on Arduino

0 个评论

文章点评

资讯全部

吊打中国移动日净赚3个亿，其实也是在收智商税

每年3月份，电信运营商会发布上一年度经营业绩。每到这个时候，只要中国移动发布年报后，业界和媒体对电信运营商的年度的分析或者解读，总是缺少不了中国移动一天净赚3个亿这道菜（从百度搜索相关信息 ...

详情>>

2017-03-291675人关注

2017-03-29
裸机6498人民币！GoPro发布无人机Karma｜新智造

无人机上带有一个三轴摄像机稳定器，这个稳定器是可以从无人机上拆卸下来的，拆下来之后将其安装至附带的Karma Grip（一个手持云台的手柄）上，立马就可以成为一个独立的手持云台。变成独立云台之后，玩家 ...

详情>>

2016-11-292116人关注

2016-11-29
年薪十万美金黑客养成手册，林大夫告诉你如何从小白到白帽子

零基础如何做黑客？这个话题你应该在知乎看到过很多次。当然，黑客的分类很多，出于不想见到警察蜀黍的原因，本文探讨的是黑客界比较友好的白帽子。当然，有愿意聊聊的黑帽子，欢迎来跟雷锋网编辑探讨 ...

详情>>

2016-11-291962人关注

2016-11-29
终止与蚂蚁金服投资合作，永安行告诉你共享单车到底赚不赚钱？

日前，永安行第二次递交了IPO申请。距离其上一次提交申请，时间过去了20个月。整份招股书信息量主要集中在两方面。其一，终止与蚂蚁金服、深创投等八家投资机构的合作；其二，作为单车赛道的后发 ...

详情>>

2017-03-291626人关注

2017-03-29
苹果 A10 处理器真的媲美桌面级CPU了么？

自iPhone 7发布以来，针对其搭载的最新A10 Fusion处理器的测评陆续放出。近日，来自国内外多家测评机构的数据显示，A10 Fusion的性能已经达到了桌面级CPU，未来英特尔的主要竞争对手可能将不再是AMD，而是 ...

详情>>

2016-11-291277人关注

2016-11-29
国庆节的正确出行方式：AI 帮你做攻略，便宜又体贴

近年来，人们越来越习惯在出行前花费大量的时间在网上查找攻略，做旅行规划。他们不只是在 PC 网站上浏览信息，还会借助手机里的应用来做计划。 ...

详情>>

2016-11-292134人关注

2016-11-29
HTC 弃手机转 VR，或是一步向死而生的险棋

摘要：企业在面对激烈变化的环境以及严峻挑战竞争时，“弃马保车”至少能优先保住企业生存，其后才有可能再图发展。近日，HTC卖手机制造工厂，并将所得6.3亿投入到VR领域的新闻，引发行业内外的 ...

详情>>

2017-03-291525人关注

2017-03-29
我试乘了一次福特无人车，感觉好极了 | 新智驾

在试乘福特无人驾驶汽车的过程中，我只碰到一次小问题，车辆在开往密歇根州迪尔伯恩福特公司总部的半路上，这辆车不知道为什么突然刹车了，然后很快又启动了。 ...

详情>>

2016-11-292006人关注

2016-11-29
高德地图发布 AI 引擎：个性化路线规划，抄小路必备

综合来看，高德 AI 引擎分两个方面，其一为个性化定制，其二为多屏布局。后者在技术和应用层面已趋于成熟，而前者则是一个需要慢慢熬的过程：高德在数据量方面高德有着先天优势，无论是自身拥有的出行数据 ...

详情>>

2016-11-291811人关注

2016-11-29
想要吸引 VR 游戏玩家？这招有奇效

编者注：对于游戏玩家而言，成就系统是游戏中较为重要的一环，但平面的勋章墙似乎让人一点儿也提不起兴趣来。不过到了 VR 时代，一些都变得立体而真实，那么有几家 VR 开发者或者外设公司意识到这一点的重 ...

详情>>

2016-11-291439人关注

2016-11-29
大疆折叠无人机谍照曝光，9月27日发布｜新智造

就在刚刚，两张印有DJI logo的无人机图片在微信朋友圈曝光。从曝光的图片来看，这款无人机确为折叠式，并且有双目前视避障，双目光流定位以及超声波定高，另外摄像头还带有三轴云台。看起来配置不一般，定 ...

详情>>

2016-11-291130人关注

2016-11-29
中国科学院孙哲南研究员专访：浅谈虹膜识别的发展前景

1、虹膜识别对摄像头的精度要求有多高？现在虹膜识别对于摄像头要求很低，远距离的虹膜识别只需要几千万像素就可以，而近距离的虹膜识别则只需几百万像素的精度就可以识别。现在主流的成像器件都可以 ...

详情>>

2016-11-291634人关注

2016-11-29

		自动登录	找回密码
密码			立即注册

学点算法搞安全之HMM（上篇）

HMM基础原理

URL参数建模

数据处理与特征提取

训练模型

安装hmmlearn

训练模型

模型验证

总结

相关分类

资讯 全部

资讯全部