为有效提升文本语义检索的准确度,本文针对当前文本检索模型衡量查询和文档的相关性时不能很好地解决文本歧义和一词多义等问题,提出一种基于改进的分层神经匹配模型(hierarchical neural matching model,HiNT)。该模型先对文档的各个段提取关键主题词,然后用基于变换器的双向编码器(bidirectional encoder representations from transformers,BERT)模型将其编码为多个稠密的语义向量,再利用引入覆盖率机制的局部匹配层进行处理,使模型可以根据文档的局部段级别粒度和全局文档级别粒度进行相关性计算,提高检索的准确率。本文提出的模型在MS MARCO和webtext2019zh数据集上与多个检索模型进行对比,取得了最优结果,验证了本文提出模型的有效性。
邸剑;刘骏华;曹锦纲;
华北电力大学控制与计算机工程学院,河北保定071003 复杂能源系统智能计算教育部工程研究中心,河北保定071003
计算机与自动化
基于变换器的双向编码器;分层神经匹配模型;覆盖率机制;文本检索;语义表示;特征提取;自然语言处理;相似度;多粒度
《智能系统学报》 2024 (003)
P.719-727 / 9
中央高校基本科研业务费专项(2021MS085).
10.11992/tis.202201020
评论