网络应用 介绍并分析P2P流量识别与监测
作者:李玉行 宋传志 来源:CHINAZ 发布时间:2008-11-06 14:00:00
核心提示:综述P2P流量识别端口识别法、应用层特征识别法、流量模式识别法以及连接模式识别,概述P2P流量识别技术,并对发展进行展望……
随着P2P应用的不断增多,P2P流量所占网络总流量的比重越来越大。准确地识别出网络中P2P应用的流量对网络规划设计、QoS保证等都有十分重要的作用。介绍了当前P2P流量识别的研究现状,综述了四种典型的P2P流量识别技术:端口识别法、应用层特征识别法、流量模式识别法以及连接模式识别,分析了各个技术的优缺点,并对P2P流量识别的发展趋势进行了一些探讨。
引言
P2P (Peer to Peer)是近年来出现的一种新的网络应用,它的出现开启了网络边缘未使用的资源。当前随着硬件价格的不断下降,作为客户端的PC机已经具有相当大的处理能力和存储空间,然而这些资源在大部分时间都是处于闲置状态。比如在当前Internet中流行的C/S配置模式中,用户的PC机仅仅是被作为一个显示网页的工具。而P2P体系结构则可以使用这些PC机分担网络中心的任务。上百万个Internet用户组合得到的处理能力将远远高于任何一个中心服务器的处理能力。除此以外,P2P体系结构还具有开放性、可扩展性强等特点。所有这些使得P2P应用在短短几年时间有了飞速的发展,其体系结构也经历了由集中式服务器(Napster)到纯分散式文件共享系统(Gnutella),再到部分分散式结构(KazaA);由使用固定端口到使用动态端口进行数据传输;由使用独特端口到与其他应用合用端口(如使用Web应用的80端口等);由明文传输到进行数据加密传输等变化过程。
研究表明,尽管受版权等问题的困扰,当前P2P应用仍呈现快速增长的趋势,并且变得越来越隐蔽[3]。P2P的飞速发展一方面丰富了网络中的应用形式,但另一方面也带来了许多负面的问题。如:P2P文件共享过程中的版权问题;P2P应用大量占用网络带宽的问题;以及P2P的流量模式对传统网络设计带来的挑战等,其中后者尤为网络设计、管理人员所关注。我们知道,在Web应用流量占网络流量主体时,由于Web流量的高度非对称性(用户链路的下行流量要远远高于其上行流量),大部分用户接入方式如ADSL、Cable modem等都设计为下行带宽远高于上行带宽。而在P2P应用中,由于所有主机都是对等的,因此其流量具有很大的对称性。研究表明,P2P应用与Web应用上行流量与下行流量的比率分别为1:1.25和1:7,两者差别将近6倍[5]。因此上述设计理念在当前P2P流量占主体的网络状况下已经不再适应。
由此可见,P2P应用对网络性能具有很大的影响,例如对于一些ISP而言,文件共享流量约占其总流量的60%,另外企业网络中大量出现的P2P流也会极大地影响网络性能。因此无论从ISP的角度还是从企业网络管理人员的角度,都希望能够将P2P流量有效的识别出来,从而便于网络的规划与管理。对于一个企业而言,可以限定P2P流量不超过某个阈值,从而能够为其他重要的应用提供一定程度上的QoS保证;或者为了网络管理的需要,直接在内部将P2P流量过滤掉。而对于ISP而言,可以在此基础上对服务进行控制以及对用户进行管理等。但是当前识别P2P的一个主要挑战就是以一种可扩展的方式识别出P2P流量,同时不要求对所有的分组进行深层分组检查(DPI, deep packet inspection)。
文章后面部分按照下述方式组织:第一部分概述了P2P流量识别技术;第二部分详细综述了当前几种常用的P2P流量识别技术;第三部分对P2P流量识别技术的发展进行了展望;最后对全文进行了总结。
1 P2P流量识别技术概述
为了控制网络P2P应用对带宽的大量占用,必须首先对P2P流量进行有效地监控,它涉及到下面几个方面的问题:流量采集、流量识别以及流量控制。在其中,流量的采集与其他网络监测方式采用的技术完全一致,流量控制则取决不同的网络管理策略,由网络管理人员进行相应的设置,例如进行P2P流量限制或者完全过滤P2P流量等。因此,这里的关键部分是流量的识别操作。根据实现思想不同,可以将它分为多种类型,如基于分组分析、基于流分析等。其实现方式直接关系到整个监控系统的实现效率以及系统的可用性。
P2P应用从最初的采用固定端口发展到使用可变端口甚至使用其他应用的端口进行数据传输,在传输的具体内容方面也从使用明文传输发展到对传输数据进行加密处理,因此对P2P流量进行识别的技术也随之经历了相应的变化过程。本文中我们主要针对四种典型的识别方法进行讨论,包括端口识别法、应用层特征识别法、流量模式识别法以及连接模式识别法。对于这几种技术,我们将在第二节中进行详细的讨论。
2 典型P2P流量识别技术
2.1 端口识别法
在P2P应用兴起的早期,大多数应用使用的都是固定端口,例如,Gnutella使用6346-6347端口,BitTorrent使用6881-6889端口等。在这种情况下,对其流量的识别方式与识别普通应用分组的方式完全相同:在需要监测的网络中被动收集分组,然后检查分组的运输层首部信息,如果端口号与某些特定的端口号匹配,则说明该分组即为P2P流量分组,可以按照预设的动作对其进行处理。这种识别方法最大的优点就是简单易行,它不需要进行复杂的分组处理即可得出结论。在P2P应用出现的初期它显得十分简单有效,但是随着P2P技术的发展,该方法逐渐变得不再适用,因此后来又出现了一些新的技术方案。
2.2 应用层特征识别法
与第一代使用固定端口进行数据传输的P2P应用不同,当前许多P2P应用都能够通过使用随机端口来掩盖其存在,有些甚至可以使用HTTP, SMTP等一些协议使用的熟知端口,这增加了识别P2P流量的难度:简单的通过分析分组首部的端口信息已经无法识别出这类应用的存在。
但是,每种应用的分组中都携带有特定的报文信息,例如,HTTP协议报文中会出现GET, PUT, POST等报文字样。与之相类似,在各种P2P应用协议中也具有类似的信息。因此,人们提出了通过检查分组内部携带的负载信息进行分组识别的方法。文献[2]提出了一种利用应用层特征的方式对P2P流量进行识别。在[2]中,作者首先对5种常见的P2P协议(KaZaA, Gnutella, eDonkey, DirectConnect以及BitTorrent)的特征进行了分析,提取出其特征信息,然后根据特征信息对收集到的分组进行模式匹配操作,从而判断出该分组是否属于某一类P2P应用分组。例如,Gnutella的连接建立报文具有下述格式
GNUTELLA CONNECT/\n\n
而应答报文格式如下
GNUTELLA OK\n\n
根据这些以及其他类似特征,即可判定相应报文是否为P2P应用报文,并由此确定某个流是否为P2P流。
[2]中的实际测量结果表明,在大多数情况下,该方法能够以低于5%的错误概率对分组进行识别。
猜你喜欢
- 本文记录了centos 7 安装详细教程,供大家参考,具体内容如下1.centos 7 下载地址进入镜像下载主页:直接点击官方主页中的&qu
- 为了秀出最完美的自拍秀,通常都要动辄几个小时的化妆美容,好不麻烦呀。而且因为化妆技术不好,彩妆的效果不尽人意。郁闷,还好,我发现了一款可以给
- index.php index.htm defaut.html答:修改.htaccess。.htaccess可以做大量范围的事情,包括:文件
- Exchange Server 2007 日志规则新日志向导日志报告中包括的内容您是否曾经不得不记录您与某位特定用户之间往来的电子邮件,而结
- 静态化这是一个跨越了太长时间的话题,很多人一聊到SEO,就说“静态化很重要”,其实怎么说呢,我觉得静态化更重要的是用来解决系统负载和运行效率
- 一、今天下午由于课程的要求不得已做了Ubuntu搭建Ftp服务器的实验,但是实验指导书还是N年前的技术,网上搜了一大把,都是模模糊糊的!在百
- 你的网站是不是常常被黑,或者一不注意就成了黑客的“肉鸡”?对于Web网站服务器来说,如果不进行安全设置,很容易被黑客“盯上”,随时都有被入侵
- 通过 Google 广告管理系统,我们还可以实现时间和日期上的精准投放。通过和AdSense广告补余相结合,我们可以在指定的日期或
- 清理docker 占用空间,volume挂载过大,清除镜像,容器,挂载数据1.问题我在 用docker安装的es使用过程中,发现内存沾满了,
- 据国外媒体报道,“威比奖”(Webby Awards)周三颁发了互联网十年10大重要时刻大奖,谷歌、
- 10月14日消息,据国外媒体报道,今年第二季度,中国网络游戏收入同比增长了39.5%至9.06亿美元,腾讯公司上升至榜首,领先于竞争对手盛大
- 有许多新的搜索引擎(最新统计有100多个)都在开创一些搜索技术的创新。下面是一份17大搜索创新清单,我们认为,这些创新将来会是破坏性的(译者
- 进入mysql命令:mysql -u+(用户名) -p+(密码 )mysql语句命令后面一定要加“;”查询库名:show databases
- 作为一个活跃的博客(Blog)作者,三年多以来,我一直坚持更新一个专业博客《麦田的读书生活》。在这份基本上保持每周更新的博客上,我一直以“自
- 无论是政府机关、学校还是企事业单位,都离不开信息化,内容管理系统(CMS),往往是信息化的最佳选择。国内首家免费开源内容管理系统,拥有4年开
- 国防部新闻事务局设立、新闻发言人亮相……近年来,中国军队举措频频,以开放、务实、活跃的姿态引人注
- 网民创造了经典,2008到底哪些语句让中国的网民囧(读音:jiǒng)了下?来看看这100条你会发现更多。。。囧详解:囧怎么读 囧是什么意思
- 网络经过这么多年几次锤炼,网站和站长意识根据网民的要求与自身发展也在改变,也应该要改变!互联网网民的素质有这么几个过程A:好奇,什么网站都去
- Godaddy主机用户将备份文件放在根目录的_db_backups文件夹里。有一下几种方法可以下载备份文件到本地磁盘。使用FTP客户端下载1
- 这两年大家都扎堆做地方站,但是一般市级地区都有本地门户,现在做是和那些老站无法抗衡的。所以好多站长选择做县级论坛。哎,都想抓住网络上最后一根