Busca Semântica Incrível

À procura de mais adições de artigos. PS: Abra um PR (Pedido de Pull)

Este repositório visa servir como um meta-repositório para tarefas relacionadas com Busca Semântica e Similaridade Semântica.

A busca semântica não se limita a texto! Pode ser feito com imagens, voz, etc. Existem inúmeros casos de uso e diferentes aplicações de busca semântica.

Sinta-se à vontade para abrir um PR neste repositório!

Conteúdo

Artigos
- 2014
- 2015
- 2016
- 2017
- 2018
- 2019
- 2020
- 2021
- 2022
- 2023
Artigos
Bibliotecas e Ferramentas
Conjuntos de Dados
Marcos

Artigos

2010

Priority Range Trees

2014

Um Modelo Semântico Latente com Estrutura de Convolutional-Pooling para Recuperação de Informação 📄

2015

Vetores de Skip-Thought 📄
LSH Prático e Ótimo para Distância Angular

2016

Saco de truques para classificação eficiente de texto 📄
Enriquecendo vetores de palavras com informações de subpalavras 📄
Pesquisa aproximada de vizinho mais próximo eficiente e robusta usando gráficos hierárquicos navegáveis de pequenos mundos
Sobre a pesquisa aproximada de incorporações de palavras semelhantes
Aprendendo representações distribuídas de sentenças a partir de dados não rotulados📄
Pesquisa aproximada do vizinho mais próximo em dados de alta dimensão --- Experimentos, análises e melhorias

2017

Aprendizagem supervisionada de representações de frases universais a partir de dados de inferência de linguagem natural 📄
[Semelhança textual semântica para hindi] (https://www.semanticscholar.org/paper/Semantic-Textual-Similarity-For-Hindi-Mujadia-Mamidi/372f615ce36d7543512b8e40d6de51d17f316e0b)📄
Sugestão eficiente de resposta em linguagem natural para resposta inteligente📃

2018

Codificador de frases universais 📄
Aprendendo similaridade textual semântica em conversas 📄
Blog de IA do Google: avanços na similaridade textual semântica 📄
Speech2Vec: uma estrutura de sequência a sequência para aprender incorporações de palavras a partir da fala)🔊
Otimização da indexação com base no gráfico k-vizinho mais próximo para pesquisa de proximidade em dados de alta dimensão 🔊
Pesquisa rápida aproximada do vizinho mais próximo com o Navegando no gráfico de dispersão
O caso das estruturas de índice aprendidas

2019

LASER: representações de frases agnósticas de linguagem 📄
Expansão de documentos por previsão de consulta 📄
Sentence-BERT: Embeddings de frases usando redes BERT siamesas 📄
Classificação de documentos em vários estágios com BERT 📄
Recuperação latente para resposta a perguntas de domínio aberto com supervisão fraca
Resposta completa de perguntas de domínio aberto com BERTserini
BioBERT: um modelo de representação de linguagem biomédica pré-treinado para mineração de texto biomédico📄
Analisando e melhorando representações com a perda suave do vizinho mais próximo📷
DiskANN: rápido e preciso bilhão de pontos mais próximo Pesquisa de vizinho em um único nó

2020

Implantando rapidamente um mecanismo de pesquisa neural para o conjunto de dados de pesquisa aberta COVID-19: reflexões preliminares e lições aprendidas 📄
RE-RANKING DA PASSAGEM COM BERT 📄
CO-Search: recuperação de informações sobre COVID-19 com pesquisa semântica, resposta a perguntas e resumo abstrativo 📄
LaBSE: Incorporação de frase BERT independente de idioma 📄
Covidex: Modelos de classificação neural e infraestrutura de pesquisa de palavras-chave para o conjunto de dados de pesquisa aberta COVID-19 📄
DeText: uma estrutura profunda de PNL para compreensão inteligente de texto 📄
Fazendo incorporações de frases monolíngues multilíngues usando destilação de conhecimento 📄
Transformadores pré-treinados para classificação de texto: BERT e além 📄
REALM: Pré-treinamento de modelo de linguagem aumentada de recuperação
ELECTRA: CODIFICADORES DE TEXTO DE PRÉ-TREINAMENTO COMO DISCRIMINADORES EM VEZ DE GERADORES📄
Melhorando o aprendizado profundo para pesquisa no Airbnb
Gerenciando a Diversidade na Pesquisa Airbnb📄
Aprendizagem contrastiva negativa aproximada do vizinho mais próximo para recuperação de texto denso📄
Incorporações de estilo de imagem não supervisionado para tarefas de recuperação e reconhecimento📷
DeCLUTR: Aprendizagem Contrastiva Profunda para Representações Textuais Não Supervisionadas📄

2021

Abordagem híbrida para cálculo de similaridade semântica entre palavras Tamil 📄
SBERT aumentado 📄
BEIR: um benchmark heterogêneo para avaliação zero-shot de modelos de recuperação de informações 📄
Pesquisa visual heterogênea com reconhecimento de compatibilidade 📷
Aprendendo estilo pessoal com alguns exemplos📷
TSDAE: Usando codificador automático de eliminação de ruído sequencial baseado em transformador para aprendizagem não supervisionada de incorporação de frases📄
Uma Pesquisa de Transformadores📄📷
SPLADE: modelo lexical esparso e de expansão para classificação de primeiro estágio📄
Sugestões de consulta de pesquisa relacionada de alta qualidade usando Deep Reinforcement Learning
Recuperação de produto baseada em incorporação na pesquisa Taobao📄📷
TPRM: um modelo de classificação personalizado baseado em tópicos para pesquisa na Web📄
mMARCO: uma versão multilíngue do conjunto de dados de classificação de passagens MS MARCO📄
Raciocínio de banco de dados sobre texto📄
Como o ajuste fino adversário beneficia o BERT?)📄
Treinar curto, testar longo: atenção com polarizações lineares permite extrapolação de comprimento de entrada📄
Primer: Procurando Transformadores Eficientes para Modelagem de Linguagem📄
Quão familiar isso parece? Representacional Multilíngue Análise de similaridade de incorporações acústicas de palavras🔊
SimCSE: Aprendizagem contrastiva simples de incorporações de frases📄
Atenção Composicional: Desembaraçando Pesquisa e Recuperação📄📷
SPANN: pesquisa aproximada de vizinho mais próximo em escala de bilhões de dólares altamente eficiente
GPL: Pseudo-rotulagem generativa para adaptação de domínio não supervisionado de recuperação densa 📄
Mecanismos de pesquisa generativos: experimentos iniciais 📷
Repensando a pesquisa: transformando diletantes em especialistas em domínio -WhiteningBERT: uma abordagem fácil de incorporação de frases não supervisionadas

2022

Incorporações de texto e código por pré-treinamento contrastivo📄
RELIC: Recuperando evidências para reivindicações literárias📄
Trans-Encoder: modelagem não supervisionada de pares de frases por meio de destilações próprias e mútuas📄
SAMU-XLSR: Representação de fala interlingual em nível de expressão multimodal semanticamente alinhada🔊
Uma análise de funções de fusão para recuperação híbrida📄
Detecção fora de distribuição com vizinhos mais próximos
ESB: uma referência para reconhecimento de fala ponta a ponta em vários domínios🔊
Analisando incorporações de palavras acústicas a partir de modelos de fala auto-supervisionados pré-treinados)🔊
Repensando com recuperação: inferência fiel do modelo de linguagem grande📄
Recuperação densa precisa de tiro zero sem rótulos de relevância📄
Memória do transformador como índice de pesquisa diferenciável📄

2023

FINGER: Inferência rápida para pesquisa aproximada de vizinho mais próximo baseada em gráfico📄
Classificação de texto de “baixos recursos”: um método de classificação sem parâmetros com compressores📄
SparseEmbed: aprendendo representações lexicais esparsas com incorporações contextuais para recuperação 📄

Artigos

Combatendo a pesquisa semântica
Pesquisa semântica no Azure Cognitive Search
Como usamos a pesquisa semântica para tornar nossa pesquisa 10 vezes mais inteligente
Stanford AI Blog: Construindo modelos de PNL escaláveis, explicáveis e adaptativos com recuperação
Construindo um mecanismo de pesquisa semântico com embeddings de palavras de espaço duplo
Pesquisa de similaridade semântica em escala de bilhões com FAISS+SBERT
Algumas observações sobre limites de pesquisa de similaridade
Pesquisa de imagens quase duplicadas usando hash sensível à localidade
Curso gratuito sobre pesquisa de similaridade vetorial e Faiss
Guia abrangente para algoritmos aproximados de vizinhos mais próximos
Apresentando o índice híbrido para permitir a pesquisa semântica com reconhecimento de palavras-chave
Pesquisa Semântica Argilla
Co: aqui está o modelo de compreensão de texto multilíngue
Simplifique a pesquisa com modelos de incorporação multilíngue

Bibliotecas e ferramentas

fastText
Codificador de frase universal
SBERT
ELECTRA
LaBSE
LASER
Relevance AI - Plataforma vetorial da experimentação à implantação
Palheiro
Jina.AI
pinha
Kit de ferramentas SentEval
ranx
BEIR: Comparativo de RI
RELiC: recuperando evidências para conjunto de dados de reivindicações literárias
matchzoo-py
deep_text_matching
Qual quadro?
lexica.art
pesquisa semântica de emoji
PySerini
BERTSerini
BERTSimilarity
milvus
NeuroNLP++
weaviate
pesquisa semântica através da wikipedia-com-weaviate
pesquisa em linguagem natural do YouTube
same.energy
ann benchmarks
scaNN
REALM
irritante
pynndescente
nsg
FALCONN
redis HNSW
autofaiss
DPR
rank_BM25
nearPy
vearch
vespa
PyNNDescent
pgANN
Semelhança do Tensorflow
opensemanticsearch.org
Pesquisa Semântica GPT3
pesquisar
txtai
HyperTag
vetorai
embeddinghub
AquilaDb
STripNet

Conjuntos de dados

Hub de conjunto de dados de similaridade de texto semântico
Desafio de similaridade de imagens de IA do Facebook
WIT: conjunto de dados de texto de imagem baseado na Wikipédia
BEIR
MTEB

Conquistas

Dê uma olhada no quadro do projeto para ver a lista de tarefas para contribuir com qualquer uma das questões em aberto.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README_Portuguesse.md

README_Portuguesse.md

Busca Semântica Incrível

Conteúdo

Artigos

2010

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

Artigos

Bibliotecas e ferramentas

Conjuntos de dados

Conquistas

Files

README_Portuguesse.md

Latest commit

History

README_Portuguesse.md

File metadata and controls

Busca Semântica Incrível

Conteúdo

Artigos

2010

2014

2015

2016

2017

2018

2019

2020

2021

2022

2023

Artigos

Bibliotecas e ferramentas

Conjuntos de dados

Conquistas