Skip to content

4. 信息检索

LongxingTan edited this page Oct 16, 2024 · 1 revision

4.1 检索

  • 多路召回
  • 向量
  • 相似度
  • 困难负样本
  • 大模型辅助

向量检索

  • point-wise: 独立看待每个正样本、负样本做二元分类
  • pair-wise: 每次取一个正样本,一个负样本
  • list-wise: 每次取一个正样本,多个负样本

point-wise

Arcface

  • 样本构造形式为(query, document as label)或(query, document)

(query, document as label)的格式适用arcface

Query Labels
query_id document_id1, document_id2

此外还可以拉平

Text Labels
query_text query_id
document_id1 query_id
document_id2 query_id
query_text2 query_id2

(query, document)的格式适用InfoNCE或SimCSE

Query Document Label
query_id document_id Positive

InfoNCE

SimCSE

pair-wise

  • 样本构造形式为(query, positive document, negative document)

数据格式为

Query Document Label
query_id document_id1 Positive
query_id document_id2 Negative

TripletLoss

相似度

自定义数据集

{(query, positive document, negative document)}

4.2 稀疏检索

  • lexical mismatch issue

4.3 稠密检索与向量数据库

4.4 手把手搭建一个语义检索系统

这里我们根据PaddleNLP中的例子使用搭建一个语义检索系统。

4.5 番外:信息检索比赛