基于搜索引擎数据库的样本自动挖掘方法及装置
2020-01-06

基于搜索引擎数据库的样本自动挖掘方法及装置

本发明公开了一种基于搜索引擎数据库的样本自动挖掘方法及装置。其中方法包括:获取已标注域名集合,所述已标注域名集合中包含多个已标注类目的第一域名;在所述搜索引擎数据库中查询每个第一域名对应的搜索词,对搜索词的类目进行标注,得到已标注搜索词集合;在搜索引擎数据库中查找每个已标注类目的搜索词对应的未标注类目的第二域名,对第二域名的类目进行标注,并将标注完成的第二域名添加到所述已标注域名集合中。本方案通过较为精确的扩展策略完成更丰富的host的挖掘,使得host的标注质量较高,较好的改善了文本分类问题中常见的样本标注的数量问题和质量问题。

第二域名标注模块430适于在搜索引擎数据库400中查找每个已标注类目的搜索词对应的未标注类目的第二域名,对第二域名的类目进行标注,并将标注完成的第二域名添加到已标注域名集合中。进一步的,第二域名标注模块430包括第二域名查找单元431和第二域名标注单元432。其中第二域名查找单元431适于对于每个已标注类目的搜索词,在搜索引擎数据库400中查找该搜索词对应的未标注类目的第二域名,从而查找到所有已标注类目的搜索词对应的多个第二域名;第二域名标注单元432适于对于每个第二域名,根据该第二域名对应的至少一个已标注类目的搜索词,对该第二域名的类目进行标注。

搜索词标注单元,适于对于每个查询到的搜索词,根据该搜索词对应的至少一个第一域名,标注该搜索词的类目,从而获得已标注搜索词集合。

上述例子仅为示例,本领域技术人员可以获知的是,搜索引擎数据库存储的是全网用户的数据,其存储数据量很多很丰富,因此得到的第一域名的query也很全面丰富,而不仅限于上述示例给出的少数query。

对于每个查询到的搜索词,根据该搜索词对应的至少一个第一域名,标注该搜索词的类目,从而获得已标注搜索词集合。

Description

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图3示出了根据本发明又一个实施例的基于搜索引擎数据库的样本自动挖掘方法的流程图。如图3所示,本方法包括如下步骤:

第二域名查找单元,适于对于每个已标注类目的搜索词,在搜索引擎数据库中查找该搜索词对应的未标注类目的第二域名,从而查找到所有已标注类目的搜索词对应的多个所述第二域名;