文本分类的深度学习方法【二】
DPCNN 😊
论文:https://ai.tencent.com/ailab/media/publications/ACL3-Brady.pdf代码:https://github.com/649453932/Chinese-Text-Classification-Pytorch
ACL 2017 年,腾讯 AI-lab 提出了 Deep Pyramid Convolutional Neural Networks for Text Categorization(DPCNN),由于 TextCNN 不能通过卷积获得文本的长距离依赖关系,而论文中 DPCNN 通过不断加深网络,可以抽取长距离的文本依赖关系。实验证明在不增加太多计算成本的情况下,增加网络深度就可以获得最佳的准确率。
Region embeddingTextCNN 的包含多尺寸卷积滤波器的卷积层的卷积结果称之为 Region embedding,意思就是对一个文本区域/片段(比如3-gram)进行一组卷积操作后生成的 embedding。
卷积和全连接的权衡产生 region embedding 后,按照经典的 Tex ...
文本分类的深度学习方法【一】
简介文本分类📖在文本处理中是很重要的一个模块,它的应用也非常广泛,比如:新闻分类、简历分类、邮件分类、办公文档分类、区域分类等诸多方面,还能够实现文本过滤,从大量文本中快速识别和过滤出符合特殊要求的信息。核心方法为首先提取分类数据的特征,然后选择最优的匹配,从而分类。
通常来讲,文本分类任务是指在给定的分类体系中,将文本指定分到某个或某几个类别中,被分类的对象有短文本,例如句子、标题、商品评论等等,长文本如文章等。分类体系一般人工划分,例如:1)政治、体育、军事 2)正能量、负能量 3)好评、中性、差评。此外,还有文本多标签分类,比如一篇博客的标签可以同时是:自然语言处理,文本分类等。因此,对应的分类模式可以分为:二分类、多分类以及多标签分类。
文本分类的主要任务
情感分析⭐️:分析人们在文本数据(如产品评论、电影评论和推特)中的观点,并提取他们的极性和观点。可以是二分类问题也可以是多分类问题,二元情感分析是将文本分为正类和负类,而多类情感分析则侧重于将数据分为细粒度的标签或多层次的强度。
新闻分类⭐️:新闻分类系统可以帮助用户实时获取感兴趣的信息。基于用户兴趣的新闻主题识别和相 ...
集成学习【二】
随机森林
随机森林算法背后的思想是群体智慧的体现,它通过随机的 行采样 和 列采样 构造不同的训练集,建立一个决策树森林,利用加权平均方式或多数表决的方式得到最后的预测结果,能够并行学习,对噪声和异常数据具有很好的过滤作用,因此有很广泛的应用。
随机森林的 行采样 和 列采样 都是为了减小模型之间的相关性使基学习器变得不同从而减小集成模型的方差。这种随机性会导致随机森林的偏差有所增加(相比于单棵决策树),因此随机森林的单棵树都会采用很深的决策树,并不进行剪枝操作,以减小每棵树的偏差,这使得每一棵决策树就是一个精通于某一个窄领域的专家(因为我们从全部特征中选择部分来让每一棵决策树学习),这样在随机森林中就有了很多个精通不同领域的专家,对一个新的问题(新的输入数据),可以用不同的角度去看待它,最终再通过投票或平均得到结果。这也正是群体智慧的体现。
随机森林是 Bagging 的一种扩展变体,与 Bagging 相比:
Bagging 中基学习器的 多样性 来自于样本扰动。> 样本扰动来自于对初始训练集的随机采样。
随机森林中的基学习器的多样性不仅来自样本扰动,还来自属性扰动 ...
集成学习【一】
集成学习
集成学习 (ensemble learning) 是通过构建及结合多个学习器来完成学习任务的,其一般结构为:
先产生一组个体学习器 (individual learner)。个体学习器通常由一种或多种现有的学习算法从训练数据中产生
然后使用某种 strategy 将个体学习器结合起来。通常可以获得比单一学习器显著优越的泛化性能
选取基学习器的准则:好而不同
个体学习器要具备一定的准确性,预测能力不能太差
个体学习器之间要有差异
一个简单的理论分析:
考虑一个二分类问题 $y\in -1, +1$,真实函数 $f(x)$ 及奇数 $M$ 个相互独立的犯错概率为 $\epsilon$ 的个体学习器 $h_i(x)$,我们使用简单的投票 (voting) 规则进行决策:
H(x)=sign(\sum_{i=1}^{M}h_i(x))由 $Hoeffding$ 不等式可知,集成学习的犯错概率满足:
P(H(x) \not = f(x))
= \sum_{k=1}^{(M+1)/2}C_{M}^{k}(1-\epsilon)^k\epsilon^{M-k}
\l ...