对BitTorrent通信协议的分析与检测

风靡一时的应用程序BitTorrent(BT)曾在短期内改变了因特网的流量构成,对IP网络的运营、维护和治理产生了巨大影响 。;本文建立了分析BT协议的环境,通过俘获BT分组并对照BT协议规范,分析了BT通信协议的交互过程,并据此配合BT的特征字符串、特征端口及行为特征,提出了一种检测通信流中存在BT通信的方法 。
1、概述
传统的因特网服务如Web、FTP、DNS等均使用客户机/服务器(C/S)模式进行通信 。在通信过程中,提供服务的程序称为服务器,请求服务的程序称为客户机 。因此,在复杂通信的过程中,一个服务器很可能在另一次通信中变为客户机,反之亦然 。C/S模式的特征是:服务器是总是打开的主机,具有永久的IP地址,并可扩展为服务器池;客户机与服务器直接通信,可以间歇地与服务器连接,可以具有动态的IP地址,并且客户机彼此之间不直接通信 。C/S模式的最大特点是服务和资源集中,所有对服务请求的处理通常是由服务器完成的 。
对等方到对等方(peer-to-peer,P2P)是近年来流行起来的通信模式,但实际上因特网正是基于这种理念建立起来的 。随着因特网用户和服务的增多,服务器面临的压力越来越大,P2P又重新回到了人们的视线中 。在P2P模式中,无总是打开的应用服务器,任意的端系统之间可直接通信,对等方间歇地连接,并可改变IP地址 。P2P模式的特征是:服务和资源分布化,资源不集中存储在某些设备上,而是分散存储在运行P2P程序的设备上,每一个对等方都可以为其他对等方提供服务 。例如,主机A要从网上下载一个文件a,假如以P2P模式工作,那么它工作的基本过程是:定位具有文件a的对等方,向对等方提出下载请求,并获得该文件 。值得注重的是,主机A在下载文件a的同时,可能也在为其他用户提供文件(包括文件a)下载 。根据定位文件a的方式不同,可将P2P应用方式分为3类:集中式目录、分布式查询和结合这两者的混合方式[1] 。集中式目录模式属于第一代P2P应用,使用一台大型服务器(或服务器场)来提供目录服务,其代表是Napster[2],缺点是存在单点故障、性能瓶颈和侵犯版权等问题 。分布式查询将目录服务完全分布在覆盖网络的所有对等方中,每一个对等方负责维护一部分目录内容 。系统采用洪泛查询(queryflooding)算法使用户获得文件信息,收到该报文的主机向它们的所有邻居转发该报文,这些邻居又依次向它们的所有邻居转发该报文等,其代表是Gnutella[3] 。第3种方式是前两种方式的结合,其中一种实现方法是将覆盖网络中的对等方划分为若干小组,每个小组选取一个具有高带宽连接和高因特网连接性的成员作为组长,组长负责治理组内成员及与其他组长通信 。在小组内使用集中式目录服务,服务器就是该组的组长 。各组长之间使用分布式的目录服务 。混合方式目前在P2P应用中使用最为广泛,其代表是KaZaA、BitTorrent(BT)[4] 。
由于BT使用广泛,其通信协议引起的流量巨大,BT对因特网的运营、维护和治理具有重要影响 。为此,参考文献[5]对BT的一般工作原理进行了介绍,参考文献[6]在分析BT工作原理的基础上,比较了BT与C/S模式应用程序的特点,提出了一种BT改进建议,但这些文献都没有具体地分析BT通信协议(简称BT协议)原理和交互过程 。为此本文深入分析了BT通信协议和其交互过程,研究了BT通信的特点,并由此提出了一种检测通信流中存在BT通信的方法 。
2、建立BT的分析环境
支持BT协议的P2P应用程序很多,如BitBuddy、FlashBT、BitComet和BitSpirit等,这里以应用程序BT为例来分析BT协议 。本文中的BT,如其后没有“协议”两字,表示的是BT应用程序 。

推荐阅读