Skip to content

自然语言处理领域下的对话语音领域,整理相关论文(附阅读笔记),复现模型以及数据处理等(代码含TensorFlow和PyTorch两版本)

License

Notifications You must be signed in to change notification settings

ChasonShi/nlp-paper

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

NLP-Paper

Blog Paper Support Stars Thanks PRs Welcome

更新一些在我学习过程中阅读过的且感觉不错的论文,对于一些经典或思路很新奇的论文,会进行精读,并写一些阅读笔记同步上传更新。(内容同步更新到知乎CSDN),论文按照时间顺序排放

注:对部分复现论文代码以及NLP其他工具代码放在这 ☞ paper-code

Contents | 内容

Summarize | 综述

Pretraining | 预训练

Model | 模型

Dialogue | 对话系统

Speech | 语音系统

Dataset | 数据集

Evaluate | 评估

Text Similarity | 文本相似度(匹配)

Deep Learning | 深度学习

Machine Learning | 机器学习

Nearest Neighbor | 向量检索

  • similarity estimation techniques from rounding algorithms | 阅读笔记:论文提出的SimHash是当年Google用来文本去重的算法。主要做法是将文档提取出一定数量的关键词,然后转换成哈希码并按列相加,1+weight,0-weight,得到的结果按照整数为1,负数为0得到最终的哈希码,然后将哈希码分为m个table,并分别记性计算检索 | Moses S. Charikar et al,2002

  • Product quantization for nearest neighbor search | 阅读笔记:这篇PaperPQ算法的成功开始,PQ是一种量化方法,本质上是数据的一种压缩表达方式(本篇论文使用了KMeans算法,得到质心的codebook),先将向量分成m段,每段分别根据codebook转换成压缩向量,然后使用SDC或ADC算法进行相似搜索。不过论文中进一步进行了改进,提出了IVFADC算法,一种基于倒排索引的ADC算法,分两步,第一步是PQ一遍(成为coarse quantizer),然后用向量减去量化后的向量得到残差,第二步就是在所有得到的残差集合上在进行一次PQ,最后用得到的向量建立倒排索引 | Herve Jegou et al,2011

  • Fast Search in Hamming Space with Multi-Index Hashing | 阅读笔记:主要是解决在汉明空间上的R-Neighbors of query和KNN query,论文提出了一种多分段索引的哈希方法,查询效率达到了次线性,做法是r为查询的汉明距离,将汉明码切分成m段,快速找出每段中汉明距离小于r/m的结果,合并所有结果即为候选集 | Mohammad Norouzi et al,2012

  • Learning Deep Structured Semantic Models for Web Search using Clickthrough Data | 阅读笔记:经典的DSSM语义相似度匹配模型,就是通常我们所说的双塔模型。使用Word Hashing的n-gram,在那个时候还是很独到的,其核心思想是将query和doc映射到到共同维度的语义空间中,通过最大化query和doc语义向量之间的余弦相似度,从而训练得到隐含语义模型,达到检索的目的。负采样1:4 | Po-Sen Huang et al,2013

  • Optimized Product Quantization | 阅读笔记:PQ的做法是直接简单粗暴的分割原始特征向量,并没有去除相关性,而如果去除相关性之后再进行PQ可以使得检索效果更好,OPQ就提供了是的每个子空间信息均衡的方法,即使用一个正交矩阵来对聚类中心进行旋转,并提供了Non-Parametric和Parametric的两种算法思路 | Tiezheng Ge et al,2013

  • Locally Optimized Product Quantization for Approximate Nearest Neighbor Search:LOPQ实在OPQ的基础上进一步优化,OPQ仅考虑了CodeBook的旋转问题,LOPQ考虑的是每个子空间进行不同的旋转 | Yannis Kalantidis et al,2014

  • Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS) | 阅读笔记:传统的MIPS问题找不到LSH函数,为此论文提出了一种“非对称LSH”的算法,其核心技巧就是通过“非对称变换”构造向量从而消除待查集合X的向量模长对MIPS结果的影响。巧妙的将问题转换为欧氏距离下,通过LSH函数求出NN的近似解的问题 | Anshumali Shrivastava et al,2014

  • Speeding Up the Xbox Recommender System Using a Euclidean Transformation for Inner-Product Spaces:微软的Inner Product快速计算的方法,主要解决的是Inner Product Top-K Search的问题。通过各种公式证明,将问题简化到一个欧氏距离搜索问题后,使用一个PCA-Tree来求解 | Yoram Bachrach et al,2014

  • Deep Compression: Ccompressing Deep Neural Networks With Pruning, Trained Quantization And Huffman Coding | 阅读笔记:ICLR的best paper,主要内容是关于深度学习网络参数的压缩。分为三步,Network pruning,即先训练一个网络,然后把一些权重很小的连接进行剪枝(通过阈值来决定),然后retrain网络。第二步,量化权重;第三步则是使用Huffman coding进行无损编码 | Song Han et al,2015

About

自然语言处理领域下的对话语音领域,整理相关论文(附阅读笔记),复现模型以及数据处理等(代码含TensorFlow和PyTorch两版本)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%