https://www.paperweekly.site/papers/2225

图片 1

论文采用了 Pretrained
InferSent,Feature-rich logistic regression,BiDAF++ 以及 BiDAF++ w/
x-ctx 作为基准算法,选用 HEQQ,HEQD 和 F1
等作为效果度量指标,进行了一系列实验。实验结果表明,目前的基准算法得到的最好结果,相较于人工判断的效果还存在很大提升空间。

https://www.paperweekly.site/papers/2250

本文提出了一个基于上下文的机器阅读理解数据集
QuAC,该数据集存在两类人群:Student 和 Teacher。
Student 依次提出一系列自由式的问题,而 Teacher
进行回答,该回答是基于文章内部的片段产生的。不同于以往的机器阅读理解数据集,该数据集存在以下特点:

PaperWeekly × 图灵教育**

责任编辑:

图片 2

图片 3

论文链接

图片 4

Backprop Evolution

@pxwluffy 推荐

#Abstractive Summarization

图片 5

原标题:收下这12篇最新论文,炼丹不愁没灵感 | 本周值得读

本文给出了一个新颖的看法,即一些垃圾数据对训练也可以是有用的。作者人为制造出很多假数据(通过随机从文本中丢失一些词和打乱一些词的顺序),训练出一个二分类网络用于判别真假文本,这种方式训练出的模型在很多任务上有更好的表现。有点像
CV 界数据增强的逆向玩法。

图片 6

Multi-Turn Response Selection for
Chatbots with Deep Attention Matching Network

@lunar 推荐

1.
问题是开放式的,也就是说问题的答案不一定存在于文章的片段中。因此 Student
在提问前不知道是否能够被回答;

图片 7

本文提出了一种基于 self-attention
的基于序列的推荐算法
,该算法是用
self-attention
从用户的交互记录中自己的去学习用的近期的兴趣,同时该模型也保留了用户的长久的兴趣。整个网络是在 metric learning
的框架下,是第一次将 self-attention 和 metric
learning的结合的尝试。

作者:François Chollet

图片 8

图片 9

图片 10

在这个栏目里,你会快速 get
每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。

相较于连续的vector 上的 inner product
操作,这种策略有更快的计算速度(这种方法被称为 semantic
hashing)。同时,离散的向量在 storage
上也比连续的向量更加节省空间。

图片 11

@aforever 推荐

图片 12

图片 13

源码链接

论文模型:点击查看大图

论文模型:点击查看大图

A Multi-task Learning Approach for
Improving Product Title Compression with User Search Log
Data

图片 14

https://github.com/noahfl/densenet-sdr

图片 15

图片 16

#Text Classification

30多个代码示例,带你全面掌握如何用深度学习解决实际问题

本文在 ACL 2018 上获得了 Best Paper
Honourable Mention Award
。现有的句子表示大多都是基于连续的
vector(skip-thought vector 等),而本文考虑用离散的 binary vector
来表示句子(文档),并首次提出用端到端的 Variational Autoencoder 来学习
binary 的句子表示
。基于这些
binary 的向量,两个文档的相似度就可以通过他们 representations 之间的
hamming distance(即有多少 bit 不同)来进行判断。

和前人的工作不同,本文没有对神经网络进行任何的简化,研究的模型就是平时常用的模型,比如
resnet,densenet。本文的结论非常具有实用性。

图片 17

实验结果表明,通过
self-attention,模型可以很好的学习用户的短期兴趣爱好,
并且能有效的提升模型效果。通过和近期的文章得对比发现,该方法可以在很大程度上改善序列化推荐的效果。

近年来,深度学习在各个领域以及工业界都取得了令人瞩目的成功。但是人们一直无法解释为什么深度学习在分类上的
performance
会比传统的方法要好那么多。尤其是,人们无法解释为什么模型复杂度那么高的神经网络没有灾难性的
overfitting 问题
(确实存在 overfitting
问题,但是没有严重到过于影响到模型的performance)。

在前人的工作基础上,本文从理论和实验上证明了深度学习和
SVM 的内在联系
。如果训练数据的 cross entropy loss 趋向于 0,那么使用
SGD 训练深度学习会使神经网络的最后一层的参数的方向趋向于 SVM solution
的方向。

关于PaperWeekly返回搜狐,查看更多

图片 18

https://www.paperweekly.site/papers/2253

@chlr1995 推荐

本文是清华大学发表于 IJCAI 2018
的工作。针对文本分类任务中卷积神经网络通常无法灵活学习可变 n
元特征(n-gram)的问题,论文提出了一种具有适应式注意力机制的密集连接的卷积神经网络。
该模型通过建立底层特征和高层特征之间的跨层连接,从而获得了丰富的多尺度特征,而注意力模型能够自适应地选择合适尺度的特征以适用于各种不同的文本分类问题。该法面向六个公开数据集均实现了超过基线的预测精度。

论文链接

QuAC : Question Answering in
Context

图片 19

@guohao916 推荐

论文链接

论文模型:点击查看大图

论文模型:点击查看大图

#**文 末 福 利#**

论文模型:点击查看大图

Next Item Recommendation with
Self-Attention

图片 20

图片 21

图片 22

本文从数学角度尝试解释 Dropout
的作用,深入探究 dropout
的本质。论文提出了一种从权重层面引入噪声的方法。
实验结果显示,这种方法不仅可以提高网络的最终收敛结果,也可以加速收敛。

论文模型:点击查看大图

https://github.com/lykaust15/NN\_decision\_boundary

参与方式

应该如何选择适合自己的深度学习框架?

图片 23

https://www.paperweekly.site/papers/2216

图片 24

本文是百度发表于 ACL 2018
的工作,论文将 attention 应用于多轮对话,打破之前的 RNN 和 CNN
结构,在多轮上速度快,达到了目前最好效果
。其次,本文使用
self-attention 和 cross-attention 来提取 response 和 context
的特征。

论文链接

@daven88 推荐

图片 25

截止时间:8月31日(周五)20:00

https://www.paperweekly.site/papers/2212

@lykaust15 推荐

无须机器学习经验和高等数学背景

#Genetic Algorithms

论文模型:点击查看大图

论文链接

#Recommender Systems

#Dialog System

图片 26

夯实深度学习基础,在实践中培养对深度神经网络的良好直觉

Densely Connected CNN with Multi-scale
Feature Attention for Text Classification

图片 27

源码链接

小编将随机抽取5位同学

论文链接

#Bayesian Deep Learning

本文是 Google Brain 发表于 ICML 2018
的工作,作者希望能够找到一种能够替代反向传播的方法。因此,他们设计了一种
domain-specific language (DSL)
来函数式描述数学公式(例如反向传播),然后利用演化算法来发现新的传播算法,旨在找到泛化性能比
BP 更好的算法
。最终通过实验,他们找到的算法能够在训练前期收敛得更快,但是收敛时并没有表现得更好。

#Deep Learning

论文模型:点击查看大图

图片 28

《Python深度学习》

本文从几何的角度理解深度学习,为深度学习提供严密的数学论证。深度学习目前还停留在实验科学的阶段,其严格的数学解释还未完全建立。

图片 29

在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。

  1. Teacher
    的回答必需基于文章内部的片段,不存在自由片段(游离于文章内容的片段);

图片 30

本文是阿里发表于 AAAI 2018
的工作,论文利用用户搜索日志进行多任务学习以压缩商品标题,生成的商品短标题在离线自动评测、人工评测以及在线评测中均超过传统抽取式摘要方法。端到端的训练方式避免了传统方法的大量人工预处理以及特征工程。多任务学习中的
Attention
分布一致性设置使得最终生成的商品短标题中能透出原始标题中重要的词,尤其是能引导成交的核心词,对于其他电商场景也有重要意义。

Geometric Understanding of Deep
Learning

图片 31

https://www.paperweekly.site/papers/2255

图片 32

3.
对话终止的条件包括:从开始对话到现在,(a). 已经有 12
个问题被回答了;(b). Student 和 Teacher 中的某一位主动提出结束对话;(c).
有两个问题不能够被回答。

NASH: Toward End-to-End Neural
Architecture for Generative Semantic Hashing

论文模型:点击查看大图

图片 33

在 information retrieval 的几个 benchmark
数据集上,本文的模型相对于以前的 semantic hashing
方法在搜索准确率上实现了明显的提升。

图片 34

@lunar 推荐

热门畅销√大神执笔√入门必备√

https://www.paperweekly.site/papers/2252

图片 35

Keras框架速成的明智之选

图片 36

#Sentence Embeding

On the Decision Boundary of Deep Neural
Networks

图片 37

图片 38

请在文末留言分享

https://www.paperweekly.site/papers/2229

论文链接

https://github.com/wangshy31/Densely-Connected-CNN-with-Multiscale-Feature-Attention

图片 39

图片 40

图片 41

本文还用大量的实验证明神经网络最后一层
classifier 的 bias 也非常接近 SVM 的 bias。本文显示 margin theory
有可能解释深度学习的 generalization property。

论文模型:点击查看大图

由 Keras 之父、Google 人工智能研究员
François Chollet 执笔,美亚 4.6 星评,16
开全彩印刷,通俗易懂,帮助读者建立关于机器学习和深度学习核心思想的直觉。书中用
30 多个代码示例,步骤讲解详细透彻,介绍了用 Python 和 Keras
进行深度学习的探索实践,包括计算机视觉、自然语言处理、产生式模型等应用。

<5本>

@EricShen 推荐

图片 42

译者:张亮

论文链接

@wangshy 推荐

Fake Sentence Detection as a Training
Task for Sentence Encoding

论文链接

源码链接

图片 43

论文模型:点击查看大图

图片 44

图片 45

BP
算法虽然取得了很大的成就,但是近年学界前沿也指出它的一些局限性,本文给这方面的研究探出了一小步。

数据集链接

图片 46

https://www.paperweekly.site/papers/2246

送出图灵教育新书

图片 47

图片 48

#Deep Neural Networks

https://www.paperweekly.site/papers/2211

http://quac.ai/

图片 49

图片 50

本文是腾讯发表于 IJCAI 2018
的工作,文章提出了一种基于卷积神经网络的总结式文本摘要生成方法,并结合主题模型的注意力机制,利用强化学习方法进行优化,在
DUC、Gigaword 和 LCSTS 数据集上达到 state of the art。

图片 51

@yangdali 推荐

图片 52

论文模型:点击查看大图

A Reinforced Topic-Aware Convolutional
Sequence-to-Sequence Model for Abstractive Text Summarization

这是 PaperDaily 的第 99篇文章

图片 53

图片 54

以下是简单粗暴送书环节

图片 55

论文链接

对于各位初级炼丹师而言,

https://www.paperweekly.site/papers/2240

Dropout is a special case of the
stochastic delta rule: faster and more accurate deep
learning

也就是说,如果将深度神经网络划分成两个部分,最后一层和除了最后一层的所有层。我们可以将除了最后一层的所有层当做一个
mapping function,这个 mapping function 将原始的输入映射到一个 hidden
representation 上。而网络的最后一层实际上是一个 linear
classifier。如果使用 hidden representation 和原始的 label 训练一个
SVM,我们会发现 SGD 会使神经网络的最后一层的参数的方向 converge 到这个
SVM solution 的方向上。

图片 56

图片 57

https://www.paperweekly.site/papers/2234

#Multi-task Learning

@Qfengly 推荐

#Machine Reading Comprehension

#Recommender System

论文链接

论文链接

这是一个非常值得研究的问题。它能够帮助我们更进一步理解深度学习从而进一步提升深度学习的
performance。同时,它也有可能帮助我们解决一些实际的问题,比如
adversarial attacking,catastrophic forgetting。

相关文章