用户画像技术是基于用户数据对现实世界中用户的数学建模:一般来说,构建用户画像首先要有数据,要根据用户的社会属性、生活习惯和消费行为等数据,对用户数据的采集和积累是进行用户画像的基础;二是要有明确的业务应用场景,用户画像与业务应用密不可分,通常需要对符合业务需求的特定用户进行画像和分析;三是要有相关的用户建模算法,从已有的用户数据中挖掘深层次的、能触及用户需求的信息,将不同数据抽象出的一个标签化的用户模型。这里,用户画像技术的核心工作即是给用户打“标签”,而标签是通过对用户信息分析而来的高度精炼的特征标识,从而对用户进行基于标签的分类和抽取。
用户画像技术的应用范围非常广泛,包括用于精准营销,通过分析潜在用户,针对特定用户群体进行广告投放,减少不必要的广告费用;或者通过分析用户数据的关联性,构建面向用户的个性化推荐系统,对服务或产品做到千人千面的定制化部署。
针对大数据条件下用户行为所产生的信息,我们以显性知识的有效结构化为目标,采用基于深度语义学习的实体识别、 关系抽取,以及属性抽取技术实现对多源用户信息的抽取;采用基于跨模态共享子空间学习理论的知识融合技术,实现对跨模态跨领域用户的信息融合;采用基于深度神经语言模型的知识推理与实体扩展技术,实现对知识图谱的动态演化与更新。
针对企业的用户画像需求,首先可以对特定的需求信息进行解析,并进行语义泛化,得到与该需求信息的语义接近的TopN 词语表示。比如,对于“具有赌博倾向的用户”需求信息,我们可以泛化出“赌球”、 “赌马”、“赌场”等与相近的词语表示。 然后,利用知识图谱提供的实体与实体之间的语义相似性和逻辑相关性,通过在词向量空间中计算相关词语之间的欧氏距离,对所有通过需求词泛化得到的词语表示,在知识图谱中寻找语义相近的实体,通过欧氏距离的表示可以得到词语与实体之间的相关性。得到语义有关的知识实体之后,同样利用向量的相似性计算得到相关实体与已知用户行为标签语义相近的标签表。依据相似值的大小,我们可以直观的了解与需求词语相关的用户行为标签,通过组合计算,便可以得到与标签对应用户的相关性的强弱,从而生成可以表示用户特性的用户行为标签关联组合。