中间节点值	中间节点编码值
		第1个属性第1个中间节点值	第1个属性第1个中间节点编码值
第1个属性第2个中间节点值	第1个属性第2个中间节点编码值
		…	…
第1个属性第n1个中间节点值	第1个属性第n1个中间节点编码值
		第2个属性第1个中间节点值	第2个属性第1个中间节点编码值
第2个属性第2个中间节点值	第2个属性第2个中间节点编码值
		…	…
第2个属性第n2个中间节点值	第2个属性第n2个中间节点编码值
		……………………	………………………..
第k个属性第1个中间节点值	第k个属性第1个中间节点编码值
		第k个属性第2个中间节点值	第k个属性第2个中间节点编码值
…	…
		第k个属性第nk个中间节点值	第k个属性第nk个中间节点编码值

表2节点值及其编码值在RAM中的存储方式

节点值(即类别值)	节点编码值
		第1种协议类型值	第1种协议类型编码值范围
第2种协议类型值	第2种协议类型编码值范围
		……………………	…………………….
第m种协议类型值	第m种协议类型编码值范围

S105：对待分类的数据包进行分流

根据{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组将数据包划分到不同的流并维护流信息表，流信息表用于记录流的五元组信息以及该条流的类别。在此，仅对语义完整的TCP流进行分析。以TCP的3次握手为流的开始，以TCP的FIN＝1或RST＝1作为流的结束。根据网络中报文的五元组信息{源地址、目的地址、源端口、目的端口、传输层协议类型}判断是否为一条流。若五元组相同，则属于同一个流。否则，为不同的流。其中，若两个包的源地址相同，则属于同向网络流；若源地址与目的地址相同，则属于反向网络流；并约定，以第一个报文的转发方向为该网络流的上行方向。此外，若两个报文间隔超过一定时间，则属于不同的网络流。流信息表中每一条记录包括如下内容：标识一条流的ID、{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组、识别出来的协议类型。流信息表仅需要保存已分类的流的记录，不需要保存未分类的流的记录，因此对流信息表进行查找时，若不存在记录则可以立即判断为未分类，从而节省查找时间。

S106：判断该数据包所属的TCP流是否已分类

利用S105提取的数据包的五元组信息，对流信息表进行查找，看表中是否已存在该五元组代表的流所对应的记录，如果存在记录，则读出该条流的类别值，如果不存在记录，则该条流未被分类。

S107：对已分类的数据包打上正确标签

利用步骤S106获取的类别信息对所有经过的数据包进行打标签处理，若数据包所属的流已经被分类，则打上相应的类别标签，分类结束。

S108：对未分类的数据包打上默认标签并提取待分类TCP流的包特征

对于未分类的数据包，按照一定的原则标记一个默认的标签，然后判断该数据包是否需要被提取包特征并做相应处理。在这里，包特征的提取与S102中采用的最终特征序列相对应，即提取第某个包或某些包的某个属性或某些属性是与S102中的最终特征序列相一致的，需要按包到达顺序进行提取，并构建待分类流的特征序列。与流信息表类似，流量信息提取模块也要维护一张参数表，参数表中每一条记录包括如下内容：标识一条流的ID、源地址、目的地址、源端口、目的端口、传输层协议类型}五元组、某个包与前一个包的间隔时间、某个包的包长、某个包的包方向、该条流参数是否已满标志。

网络数据(即数据包传输过程中的帧)传输是不受影响的，原因在于流量信息提取模块像一颗数据探针，仅仅将路过该模块的参数信息拷贝出来，而不改变任何数据以及数据的传输时序。

S109，决策树查找。

利用S108所得的待分类流的特征序列对S104所得的两块RAM进行查找，判断该TCP流的类别值并更新流信息表。在查找过程中采用并行处理策略，仅需要两个时钟周期即可完成决策树的查找过程。即第一个时钟周期并行比较所有属性的所有中间节点值，确定该流所属的所有中间节点编码值。也就是说，第一个时钟周期需要完成第1个属性的n1个中间节点值的比较以确定第1个属性所属的中间节点值范围区间，完成第2个属性的n2个中间节点值的比较以确定第2个属性所属的中间节点值范围区间……完成第k个属性的nk个中间节点值的比较以确定第k个属性所属的边缘节点值范围区间，而这n1+n2+…+nk个比较器是同时并行开始执行的。第一个时钟周期结束后，即可确定该流所属的所有属性的中间节点范围，通过RAM中的记录同时可以确定该流所属的所有中间节点编码值，其中一个属性对应一个中间节点编码值，则一条流对应k个中间节点编码值，将这k个中间节点编码值合并为一个数据，第二个时钟周期利用前一个时钟周期的合并结果数据并行比较所有边缘节点编码值，从而确定该流的边缘节点值，也就是协议类别值。

图2为本发明所提供的流量分类装置的结构示意图。

从功能上看，该流量分类装置可以分为在线和离线两个部分。离线部分主要完成决策树的构造及数据结构转换；在线部分主要负责未知数据流的分类。离线部分包括顺序连接的前期数据流量采集模块201、前期数据流分流模块202、前期数据流人工分类模块203、前期数据流特征提取模块204、决策树建树模块205、决策树结构转换模块206以及后期的分类结果处理模块207；在线部分包括顺序连接的MAC层处理模块一211、数据包轮询管理模块212、分流判断模块213、流量信息提取及打标签模块214、决策树查找模块215、MAC层处理模块二216。

在本流量分类装置中，前期数据流量采集模块201、前期数据流分流模块202、前期数据流人工分类模块203、前期数据流特征提取模块204、决策树建树模块205、决策树结构转换模块206可在装置部署前完成，因此不是使用流量分类的装置或者系统的必要组成部分。而MAC层处理模块一211、数据包轮询管理模块212、分流判断模块213、流量信息提取及打标签模块214、决策树查找模块215、MAC层处理模块二216、分类结果处理模块207一般应在使用流量分类的装置或系统中出现。

每一模块具体功能和处理流程如下：在带有流量分类的装置或系统使用前，需要使用前期数据流量采集模块201、前期数据流分流模块202、前期数据流人工分类模块203、、前期数据流特征提取模块204、决策树建树模块205、决策树结构转换模块206完成图1中S101～S104的工作，形成的经过转换的决策树数据结构置于装置中的RAM中。当一个未知类别的数据包进入流量分类装置后，而MAC层处理模块一211、数据包轮询管理模块212对数据包进行预处理，分流判断模块213根据{源地址、目的地址、源端口、目的端口、传输层协议类型}五元组将数据包划分到不同的流并维护流信息表，然后对流信息表进行查找以确定数据包所属的类别，完成图1中S105～S106的工作。流量信息提取及打标签模块214根据分流判断模块213所获取的类别信息对数据包进行打标签处理，同时按数据包先后顺序，依次提取包长、修正包间隔时间、传送方向等参数，形成特征序列，送入决策树查找模块215、完成图1中S107～S109的工作。流信息表仅由决策树查找模块215进行更新处理，其他模块均不能对流信息表进行写操作。MAC层处理模块二216及分类结果处理模块207对数据包进行后续的处理并显示分类结果。

本实施例提供的方法和装置，对采用C4.5算法建立的决策树进行了数据结构转换，使之转换成一种易于硬件实现的数据结构，降低了算法本身的复杂度；决策树查找过程中使用了并行查找和流水线技术，提高了处理速度；选取的包特征提取过程简单，易于在线完成；利用了C4.5算法本身所具有的准确度高、稳定性好的特点。因此，本实施例可以方便的实现网络流量的高速在线分类。

最后应说明的是：以上实施例仅用以说明本发明的技术方案及装置，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。