科技知识图谱的逻辑结构分为两个部分:科技大数据层和关系层。科技大数据层主要由一系列论文、专利、标准、研究机构、科研人才、科研项目、科技奖励等事实组成。关系层构建在科技大数据基础之上,主要通过科研本体数据库来规范科技大数据层的一系列事实表达。
知识图谱设计流程
科技知识抽取
建立在科技大数据基础上的科技知识抽取,通过智能化的技术抽取出可以应用的实体、关系、属性,包括研究机构名称、人员名称、地名等,机构与机构的关系、机构与人员的关系、机构与地名的关系,以及机构的学科划分、级别划分等数据,并以此为基础,形成一系列高质量的科技事实表达,为科研关系层的构建奠定基础。
实体抽取:从科技论文、专利文献、技术标准等文献资料中自动识别出研究机构、人名、地名等实体词,构成知识图谱最基本的节点元素,基于大数据的实体自动抽取技术,实现按照学科领域的机构、人名、地名准确、完整抽取,建成面向学科领域的实体库。
关系抽取:利用自然语言处理技术从科技文献题录数据和非结构化文献文本中提取实体或概念,发现实体之间的语义关系并建立实体与论文实体之间的关联。
属性抽取:主要是抽取研究机构的属性、研究方向和研究领域,抽取科研人员的性别、年龄、联系方式、研究方向、毕业院校等属性信息,通过属性信息实现研究机构和科研人才的画像。
科技知识融合:针对多源异构科技数据资源,需要建立面向实体和关系的知识融合机制,对不同来源的信息进行数据加工、消歧、推理验证、更新等步骤,提升实体抽取和关系抽取的完整性、准确性和召回率,从而形成高质量的科技知识库。
|
|
某领域科研团队合作网络图谱(关系抽取) |
某领域技术与功效关联关系分析(关系抽取) |
科技知识图谱应用
智能检索:支持用户输入学科领域、机构名、人名等关键词,搜索引擎触发语义解析器,与领域知识库进行匹配,实现学科领域内各类研究实体、实体关系的输出,为用户提供完整的知识体系。
智能问答:智能问答系统是知识图谱与信息检索相结合的高层服务系统。该系统能够根据用户关注的问题进行语义解析,从领域知识库中搜索出相应的结果,如某领域关键研究机构、某机构核心研究团队、某项技术的研究热点等。
科研网络:科技知识图谱能够面向特定领域,将该领域的研究机构、人、地点、研究成果等信息串联成一个科研网络,以直观的可视化网络图呈现给用户,在该科研网络图中可以找到与用户感兴趣的研究方向相关的人、机构、成果等,能够有效地支持科技成果转化、关键技术选择等工作。