深度学习应用知多少详解人工智能在网络安全中的应用竹胶板

2019-10-08 03:28

目前市场上大多数深度学习应用通常面向销售、金融、社交媒体等领域,但在使用深度学习来保护这些领域的产品和业务、避免恶意软件和黑客攻击方面,却鲜有资源。像google、facebook、微软和salesforce这样的大型科技公司已经将深度学习嵌入他们的产品之中,但网络安全行业仍在追赶的路上。

本期安仔课堂,isec实验室的林老师为我们介绍深度学习以及它支持的一些现有信息安全应用,并讲解如何使用深度学习检测xss注入攻击。

一、深度学习应用简介

2016年谷歌下属公司deep mind基于深度机器学习研究的alphago首次打败围棋专业棋手李世石,使得深度学习再次引起全球范围内的轰动。深度学习是近年来在图像识别、语音识别、自然语言处理等领域的突破性应用。

深度学习是一个具有多个隐层的非线性神经网络结构,深层神经网络由一个输入层、数个隐层和一个输出层构成。每层有若干个神经元,神经元之间有连接权重。每个神经元模拟人类的神经元细胞,节点之间的连接模拟神经元细胞之间的连接。

图1

二、深度学习在信息安全上的应用

1.恶意代码检测

恶意代码稍变形就可以绕过,而传统的杀毒软件是基于文件签名和特征码来确定恶意文件的,会导致大量漏报。后来出现了沙盒和虚拟机技术,可以对病毒的动态行为进行检测,这是从静态检测到动态分析的进步,很大程度上提升了对未知恶意代码的检测能力,但从本质上还是基于规则的检测。大量论文都提出了深度学习应用于恶意代码行为分析检测上的思路,已是大势所趋。

2.入侵检测

传统的入侵检测系统多是基于误用入侵检测技术,也就是说提取入侵行为的特征或规则,即黑名单方式。大多数国内厂商的竞争点还是入侵行为库的多寡,这跟恶意代码检测起初的思路是一样的。后来出现了异常行为检测技术,也就是基于统计的方法对正常行为进行概率统计建模,再对与正常模型偏差较大的异常行为进行分析和报警。深度学习也应用到了入侵检测,对网络包进行统计、分布、序列维度上的特征进行提取和模型训练。现在入侵检测的主流思路已经从黑名单转为白模型方式,正如安全圈盛行的那句话:“正常的总是相似的,异常各有各的异常。”

3.webshell检测

利用深度学习进行webshell检测,主要思路分为静态检测、动态检测和流量检测。静态检测是把webshell文件作为普通文本序列,使用词袋模型(bow)、td-idf进行特征提取;动态检测是对opcode或系统调用序列进行建模;流量检测的思路是基于web流量,根据一系列参数特征、信息熵、时间分布特征等对正常流量和webshell访问流量样本进行训练分类模型,从而发现webshell的访问行为。

4.深度学习检测dga

利用深度学习进行dga检测,主要从语法分析的角度检测dga域名,包括使用n-gram和正常域名对比词频,使用hmm和正常域名对比域名字符组合的概率,分析域名的熵、辅音字母、数字等特征,作为dga域名的检测特征,之后使用lstm算法进行模型训练。

三、基于深度学的xss注入检测

1.数据准备

从xssed爬取训练数据,训练集正常样本30000条,xss攻击样本25343条;验证集中正常样本10000条,xss攻击样本10000条;测试集中正常样本5000条,xss攻击样本5000条。

2.数据预处理

>;>;>;①分词处理

使用结巴分词工具python版本进行分词处理。

分词遵循以下原则:

a.单双引号包含的内容 ‘xss’

b. http/https链接

c. ;标签 ;

d.;开头 e.参数名 topic=

f.函数体 alert(

g.字符数字组成的单词

>;>;>;②词向量处理

将分词后的样本转化为计算机可以理解的矢量,常见的有one-hot 编码和word2vec(词向量)。

one-hot 编码:最简单的编码方式是把每个词都表示成一个长向量,向量的长度为词表的大小 ,只有这个词对应位置上为1,其余都为0,但无法表示词和词之间的关系。

word2vec:google提出的word2vec,对于nlp有极大的帮助促进作用。word2vec 通过预测一个长度为c的窗口内每个词周边词语的概率,来作为这个词的词向量。其包含cbow和skip-gram神经网络模型,cbow模型利用词的上下文预测当前的词,skip-gram利用当前的词来预测上下文。

使用gensim模块的word2vec类训练一个词空间维度为128维的xss语义模型,让机器能够理解;、alert()这样的html语言。

词向量处理代码:

图2

3.训练xss检测模型

lstm 通过刻意的设计来避免长期依赖问题,从左往右推进像传送带一样,将信息从上一个单元传送到下一个单元,和其他部分只有很少的相互作用。lstm神经网络具有长期依赖信息、理解序列中上下文的知识等特点,可以利用此特点来训练xss识别模型。

图3

这里使用keras和tensorflow进行训练,训练模型核心代码如下所示:

图4

4.xss注入检测流程

首先使用结巴分词工具对数据集进行分词,并通过gensim模块的word2vec类训练得到xss语义模型,然后训练集数据通过xss语义模型转换为矢量,使用lstm神经网络训练xss检测模型,最后使用xss检测模型对测试集数据进行检测,查看是否存在攻击行为。

图5

安胜作为国内领先的网络安全产品及服务提供商,秉承“创新为安,服务致胜”的经营理念,专注于网络安全类产品的生产与服务;以“研发+服务+销售”的经营模式,“装备+平台+服务”的产品体系,在技术研究、研发创新、产品化等方面已形成一套完整的流程化体系,为广大用户提供量体裁衣的综合解决方案!

我们拥有独立的技术及产品的预研基地—isec实验室,专注于网络安全前沿技术研究,提供网络安全培训、应急响应、安全检测等服务。此外,实验室打造独家资讯交流分享平台—“isec安全e站”,提供原创技术文章、网络安全信息资讯、实时热点独家解析等。

2018年

承担全国两会网络安保工作;

承担青岛上合峰会网络安保工作。

2017年

承担全国两会网络安保工作;

承担金砖“厦门会晤”网络安保工作;

承担北京“一带一路”国际合作高峰论坛网络安保工作;

承担中国共产党第十九次全国代表大会网络安保工作;

承担第四届世界互联网大会网络安保工作。

2016年

承担全国两会网络安保工作;

为贵阳大数据与网络安全攻防演练提供技术支持;

承担g20峰会网络安保工作;

承担第三届世界互联网大会网络安保工作。

2015年

承担第二届世界互联网大会网络安保工作。

不忘初心、砥砺前行;未来,我们将继续坚守、不懈追求,为国家网络安全事业保驾护航!

微机控制球团压力试验机生产厂家

万能试验机价格

弯曲试验机价格

XJ—50D悬简组合式冲击试验机

相关阅读
今日苹果首发机械世纪开启全民沙盒时代搅拌楼

备受关注的3d物理沙盒手游《我的战舰:机械世纪》,今日登录ios。在游戏中,你可以进行机械拼装、独立设置关卡、与对手进行对战;同时,游戏全面支持ar kit技术,在ar环境中也能够拼装、操纵战车。快来《机械世纪》,让脑

2019-11-18 20:44
洋机器人一统江湖尴尬了谁木工钻床

“洋机器人”替代国内产业工人宽敞的厂房里,轰鸣的机器声,各式乱舞的机器人手臂,让人似乎进入了另一个世界。这是国内一家机器人企业在沈阳厂房内的情况,技术人员正在对各种机器人进行调试、安装。码垛机器人、汽

2019-11-18 20:33
广元卡特挖掘机热线用新智造选卡特挖土机械铝导线

广元卡特挖掘机(热线)用新智造【选卡特挖土机械】文章来源:卡特挖掘机发布时间:2019-02-08 17:20:18产品品牌卡特挖掘机产品型号cat336生产城市江苏发货城市江苏供货总量1最小起订1产品单价1计量单位台产品详情广元卡特挖掘机

2019-11-18 19:58
攻克三大施工难题中联重科塔机参建浙江瓯江北口大桥乐清

日前,位于浙江温州的瓯江北口大桥传来喜讯——桥梁总体工程进度已完成近40%。在瓯江北口大桥的建设过程中,中联重科4.0塔机历经“强潮、软土、台风”三大挑战,仍保持高效、稳定作业,有力地保障了项目施工进度,卓越

2019-11-18 19:48
全国小麦机收大会战圆满收官机收率96创新高小麦机收三夏农机化对讲机

2019年“三夏”小麦机收大会战自5月28日启动以来,装备保障有力、组织调度有效、机具流动有序,天气总体晴好,麦收由南向北快速推进,鄂、豫、皖、苏、鲁、冀、陕等冬小麦主产区相继告捷。截至6月18日,全国已收获

2019-11-18 19:42
天津H型钢UB1016305393信誉保证阀芯

天津H型钢UB1016*305*393信誉保证卷料的幅度精度。当卷材从很宽的材料剪切时,因剪切装置的精度和刚度原因剪切下来的材料幅度会出现正、负误差。在通过模具的导向柱时,材料过窄就会产生间隙,发生抖动,使送料的精度下降

2019-11-18 19:40
友情链接