2014年4月9日,我校申请的一项发明专利获得国家知识产权局授权。该发明名称为“一种基于协同训练的垃圾邮件过滤方法和装置”(专 利 号:ZL 2011 1 0369697.6 ),发明人为“徐燕、邱泳钦、李丹、周美林”,后三位为本校学生,专利权人为北京语言大学。该发明基本思想是针对现在网络上利用热点话题进攻的邮件进行过。
此发明实施例提供了一种基于协同训练的垃圾邮件过滤方法和装置,方法包括:输入待过滤的邮件集合;根据邮件集合得到每个样本的特征向量,其中一个样本对应一封邮件;将每个样本的特征向量划分为第一特征向量子集和第二特征向量子集,第一特征向量子集中的特征来源于邮件头信息,第二特征向量子集中的特征来源于邮件内容信息;将第一特征向量子集和第二特征向量子集分别作为每个样本的第一视角和第二视角;利用第一视角和第二视角进行基于贝叶斯分类器的协同训练得到最终的第一分类器和第二分类器;根据第一分类器和第二分类器对垃圾邮件进行分类过滤。本发明实施例可以在样例较少的情况下更加有效地对大规模数据进行分类预测和过滤。
