Logo feito por @createdbytango.
À procura de mais adições de artigos. PS: Abra um PR (Pedido de Pull)
Este repositório visa servir como um meta-repositório para tarefas relacionadas com Busca Semântica e Similaridade Semântica.
A busca semântica não se limita a texto! Pode ser feito com imagens, voz, etc. Existem inúmeros casos de uso e diferentes aplicações de busca semântica.
Sinta-se à vontade para abrir um PR neste repositório!
- Saco de truques para classificação eficiente de texto 📄
- Enriquecendo vetores de palavras com informações de subpalavras 📄
- Pesquisa aproximada de vizinho mais próximo eficiente e robusta usando gráficos hierárquicos navegáveis de pequenos mundos
- Sobre a pesquisa aproximada de incorporações de palavras semelhantes
- Aprendendo representações distribuídas de sentenças a partir de dados não rotulados📄
- Pesquisa aproximada do vizinho mais próximo em dados de alta dimensão --- Experimentos, análises e melhorias
- Aprendizagem supervisionada de representações de frases universais a partir de dados de inferência de linguagem natural 📄
- [Semelhança textual semântica para hindi] (https://www.semanticscholar.org/paper/Semantic-Textual-Similarity-For-Hindi-Mujadia-Mamidi/372f615ce36d7543512b8e40d6de51d17f316e0b)📄
- Sugestão eficiente de resposta em linguagem natural para resposta inteligente📃
- Codificador de frases universais 📄
- Aprendendo similaridade textual semântica em conversas 📄
- Blog de IA do Google: avanços na similaridade textual semântica 📄
- Speech2Vec: uma estrutura de sequência a sequência para aprender incorporações de palavras a partir da fala)🔊
- Otimização da indexação com base no gráfico k-vizinho mais próximo para pesquisa de proximidade em dados de alta dimensão 🔊
- Pesquisa rápida aproximada do vizinho mais próximo com o Navegando no gráfico de dispersão
- O caso das estruturas de índice aprendidas
- LASER: representações de frases agnósticas de linguagem 📄
- Expansão de documentos por previsão de consulta 📄
- Sentence-BERT: Embeddings de frases usando redes BERT siamesas 📄
- Classificação de documentos em vários estágios com BERT 📄
- Recuperação latente para resposta a perguntas de domínio aberto com supervisão fraca
- Resposta completa de perguntas de domínio aberto com BERTserini
- BioBERT: um modelo de representação de linguagem biomédica pré-treinado para mineração de texto biomédico📄
- Analisando e melhorando representações com a perda suave do vizinho mais próximo📷
- DiskANN: rápido e preciso bilhão de pontos mais próximo Pesquisa de vizinho em um único nó
- Implantando rapidamente um mecanismo de pesquisa neural para o conjunto de dados de pesquisa aberta COVID-19: reflexões preliminares e lições aprendidas 📄
- RE-RANKING DA PASSAGEM COM BERT 📄
- CO-Search: recuperação de informações sobre COVID-19 com pesquisa semântica, resposta a perguntas e resumo abstrativo 📄
- LaBSE: Incorporação de frase BERT independente de idioma 📄
- Covidex: Modelos de classificação neural e infraestrutura de pesquisa de palavras-chave para o conjunto de dados de pesquisa aberta COVID-19 📄
- DeText: uma estrutura profunda de PNL para compreensão inteligente de texto 📄
- Fazendo incorporações de frases monolíngues multilíngues usando destilação de conhecimento 📄
- Transformadores pré-treinados para classificação de texto: BERT e além 📄
- REALM: Pré-treinamento de modelo de linguagem aumentada de recuperação
- ELECTRA: CODIFICADORES DE TEXTO DE PRÉ-TREINAMENTO COMO DISCRIMINADORES EM VEZ DE GERADORES📄
- Melhorando o aprendizado profundo para pesquisa no Airbnb
- Gerenciando a Diversidade na Pesquisa Airbnb📄
- Aprendizagem contrastiva negativa aproximada do vizinho mais próximo para recuperação de texto denso📄
- Incorporações de estilo de imagem não supervisionado para tarefas de recuperação e reconhecimento📷
- DeCLUTR: Aprendizagem Contrastiva Profunda para Representações Textuais Não Supervisionadas📄
- Abordagem híbrida para cálculo de similaridade semântica entre palavras Tamil 📄
- SBERT aumentado 📄
- BEIR: um benchmark heterogêneo para avaliação zero-shot de modelos de recuperação de informações 📄
- Pesquisa visual heterogênea com reconhecimento de compatibilidade 📷
- Aprendendo estilo pessoal com alguns exemplos📷
- TSDAE: Usando codificador automático de eliminação de ruído sequencial baseado em transformador para aprendizagem não supervisionada de incorporação de frases📄
- Uma Pesquisa de Transformadores📄📷
- SPLADE: modelo lexical esparso e de expansão para classificação de primeiro estágio📄
- Sugestões de consulta de pesquisa relacionada de alta qualidade usando Deep Reinforcement Learning
- Recuperação de produto baseada em incorporação na pesquisa Taobao📄📷
- TPRM: um modelo de classificação personalizado baseado em tópicos para pesquisa na Web📄
- mMARCO: uma versão multilíngue do conjunto de dados de classificação de passagens MS MARCO📄
- Raciocínio de banco de dados sobre texto📄
- Como o ajuste fino adversário beneficia o BERT?)📄
- Treinar curto, testar longo: atenção com polarizações lineares permite extrapolação de comprimento de entrada📄
- Primer: Procurando Transformadores Eficientes para Modelagem de Linguagem📄
- Quão familiar isso parece? Representacional Multilíngue Análise de similaridade de incorporações acústicas de palavras🔊
- SimCSE: Aprendizagem contrastiva simples de incorporações de frases📄
- Atenção Composicional: Desembaraçando Pesquisa e Recuperação📄📷
- SPANN: pesquisa aproximada de vizinho mais próximo em escala de bilhões de dólares altamente eficiente
- GPL: Pseudo-rotulagem generativa para adaptação de domínio não supervisionado de recuperação densa 📄
- Mecanismos de pesquisa generativos: experimentos iniciais 📷
- Repensando a pesquisa: transformando diletantes em especialistas em domínio -WhiteningBERT: uma abordagem fácil de incorporação de frases não supervisionadas
- Incorporações de texto e código por pré-treinamento contrastivo📄
- RELIC: Recuperando evidências para reivindicações literárias📄
- Trans-Encoder: modelagem não supervisionada de pares de frases por meio de destilações próprias e mútuas📄
- SAMU-XLSR: Representação de fala interlingual em nível de expressão multimodal semanticamente alinhada🔊
- Uma análise de funções de fusão para recuperação híbrida📄
- Detecção fora de distribuição com vizinhos mais próximos
- ESB: uma referência para reconhecimento de fala ponta a ponta em vários domínios🔊
- Analisando incorporações de palavras acústicas a partir de modelos de fala auto-supervisionados pré-treinados)🔊
- Repensando com recuperação: inferência fiel do modelo de linguagem grande📄
- Recuperação densa precisa de tiro zero sem rótulos de relevância📄
- Memória do transformador como índice de pesquisa diferenciável📄
- FINGER: Inferência rápida para pesquisa aproximada de vizinho mais próximo baseada em gráfico📄
- Classificação de texto de “baixos recursos”: um método de classificação sem parâmetros com compressores📄
- SparseEmbed: aprendendo representações lexicais esparsas com incorporações contextuais para recuperação 📄
- Combatendo a pesquisa semântica
- Pesquisa semântica no Azure Cognitive Search
- Como usamos a pesquisa semântica para tornar nossa pesquisa 10 vezes mais inteligente
- Stanford AI Blog: Construindo modelos de PNL escaláveis, explicáveis e adaptativos com recuperação
- Construindo um mecanismo de pesquisa semântico com embeddings de palavras de espaço duplo
- Pesquisa de similaridade semântica em escala de bilhões com FAISS+SBERT
- Algumas observações sobre limites de pesquisa de similaridade
- Pesquisa de imagens quase duplicadas usando hash sensível à localidade
- Curso gratuito sobre pesquisa de similaridade vetorial e Faiss
- Guia abrangente para algoritmos aproximados de vizinhos mais próximos
- Apresentando o índice híbrido para permitir a pesquisa semântica com reconhecimento de palavras-chave
- Pesquisa Semântica Argilla
- Co: aqui está o modelo de compreensão de texto multilíngue
- Simplifique a pesquisa com modelos de incorporação multilíngue
- fastText
- Codificador de frase universal
- SBERT
- ELECTRA
- LaBSE
- LASER
- Relevance AI - Plataforma vetorial da experimentação à implantação
- Palheiro
- Jina.AI
- pinha
- Kit de ferramentas SentEval
- ranx
- BEIR: Comparativo de RI
- RELiC: recuperando evidências para conjunto de dados de reivindicações literárias
- matchzoo-py
- deep_text_matching
- Qual quadro?
- lexica.art
- pesquisa semântica de emoji
- PySerini
- BERTSerini
- BERTSimilarity
- milvus
- NeuroNLP++
- weaviate
- pesquisa semântica através da wikipedia-com-weaviate
- pesquisa em linguagem natural do YouTube
- same.energy
- ann benchmarks
- scaNN
- REALM
- irritante
- pynndescente
- nsg
- FALCONN
- redis HNSW
- autofaiss
- DPR
- rank_BM25
- nearPy
- vearch
- vespa
- PyNNDescent
- pgANN
- Semelhança do Tensorflow
- opensemanticsearch.org
- Pesquisa Semântica GPT3
- pesquisar
- txtai
- HyperTag
- vetorai
- embeddinghub
- AquilaDb
- STripNet
- Hub de conjunto de dados de similaridade de texto semântico
- Desafio de similaridade de imagens de IA do Facebook
- WIT: conjunto de dados de texto de imagem baseado na Wikipédia
- BEIR
- MTEB
Dê uma olhada no quadro do projeto para ver a lista de tarefas para contribuir com qualquer uma das questões em aberto.