-
Notifications
You must be signed in to change notification settings - Fork 10
4. 信息检索
LongxingTan edited this page Oct 16, 2024
·
1 revision
- 多路召回
- 向量
- 相似度
- 困难负样本
- 大模型辅助
- point-wise: 独立看待每个正样本、负样本做二元分类
- pair-wise: 每次取一个正样本,一个负样本
- list-wise: 每次取一个正样本,多个负样本
Arcface
- 样本构造形式为(query, document as label)或(query, document)
(query, document as label)的格式适用arcface
Query | Labels |
---|---|
query_id | document_id1, document_id2 |
此外还可以拉平
Text | Labels |
---|---|
query_text | query_id |
document_id1 | query_id |
document_id2 | query_id |
query_text2 | query_id2 |
(query, document)的格式适用InfoNCE或SimCSE
Query | Document | Label |
---|---|---|
query_id | document_id | Positive |
InfoNCE
SimCSE
- 样本构造形式为(query, positive document, negative document)
数据格式为
Query | Document | Label |
---|---|---|
query_id | document_id1 | Positive |
query_id | document_id2 | Negative |
TripletLoss
{(query, positive document, negative document)}
- lexical mismatch issue
这里我们根据PaddleNLP中的例子使用搭建一个语义检索系统。