《大词林》是一个开放域命名实体知识库自动构建系统,系统从Web搜索结果、在线百科和命名实体字面等多个信息源挖掘命名实体的类别,并从Apriori关联项、后缀上位词、分类层次化和词汇分布表示等多个角度学习获取类别之间的层次化关系。

实体上位词抽取过程
实体上位词抽取过程

《大词林》以《同义词词林(扩展版)》为骨架,不断添加命名实体及其层次化类别信息,自动构建开放域命名实体知识库。

系统特点:

1、以有向图的形式展现命名实体的层次化类别及关系,支持用户查询任意命名实体;
2、以层次化结构展现知识库体系,供用户浏览整个知识库;
3、为实体添加了义项,同时根据实体的义项修改了《大词林》中的上位词概念路径获取方式,使得每一个实体的义项均能够唯一对应到细粒度的上位词概念路径;
4、为实体添加属性,将属性和属性值映射到实体的义项上以更加清晰明确的展示实体的含义。

目前《大词林》2.0版已拥有实体30,102,845 (三千万),上位词182,079(十八万),优质的实体上下位关系对15,577,846(一千五百万对),属性-值对79,568,791(七千九百万对),关系(属性)数436,961(四十三万)。

上下位关系
上下位关系