科学技术与工程

输入	类别
皇马剥开胜利有个不得不说问题走了的人是否会被怀念	7
某知名女星边工作边犒劳员工率12人齐赴戛纳玩	9
常州一小区现楼晃晃 10栋居民楼晃动半年多	1
多地学校探索多元化评价体系学生全面发展受重视	3
顺义香悦四季95~115 m² 3居新房源在售享98折	1

输入	类别
皇马剥开胜利有个不得不说问题走了的人是否会被怀念	7
某知名女星边工作边犒劳员工率12人齐赴戛纳玩	9
常州一小区现楼晃晃 10栋居民楼晃动半年多	1
多地学校探索多元化评价体系学生全面发展受重视	3
顺义香悦四季95~115 m² 3居新房源在售享98折	1

环境	配置参数
处理器	Intel(R) Core (TM) i7-7700K CPU @4.20 GHz
显卡	NVIDIA GEFORCE RTX 3080Ti
内存	32 GB
框架	PyTorch 1.10

环境	配置参数
处理器	Intel(R) Core (TM) i7-7700K CPU @4.20 GHz
显卡	NVIDIA GEFORCE RTX 3080Ti
内存	32 GB
框架	PyTorch 1.10

模型	精确率/%	召回率/%	F₁/%
TextCNN	81.83	80.71	81.27
BiGRU	79.76	79.02	79.39
RCNN	83.77	82.15	82.95
BERT	90.68	90.55	90.61
ERNIE	91.04	90.99	91.01
ERNIE+CNN	92.32	92.28	92.29
ERNIE+BiGRU	92.56	92.51	92.53
ERNIE+RCNN	93.79	93.66	93.72
本文方法	94.26	94.21	94.23

模型	精确率/%	召回率/%	F₁/%
TextCNN	81.83	80.71	81.27
BiGRU	79.76	79.02	79.39
RCNN	83.77	82.15	82.95
BERT	90.68	90.55	90.61
ERNIE	91.04	90.99	91.01
ERNIE+CNN	92.32	92.28	92.29
ERNIE+BiGRU	92.56	92.51	92.53
ERNIE+RCNN	93.79	93.66	93.72
本文方法	94.26	94.21	94.23

专家数	精确率/%	召回率/%	F₁/%	参数量/10⁶
4	90.84	90.85	90.84	26.64
6	91.21	91.19	91.20	27.83
8	91.37	91.32	91.34	29.01
10	91.51	91.45	91.48	30.19
12	91.38	91.36	91.37	31.38

专家数	精确率/%	召回率/%	F₁/%	参数量/10⁶
4	90.84	90.85	90.84	26.64
6	91.21	91.19	91.20	27.83
8	91.37	91.32	91.34	29.01
10	91.51	91.45	91.48	30.19
12	91.38	91.36	91.37	31.38

门控函数	精确率/%	召回率/%	F₁/%
Softmax	90.42	90.38	90.40
Gumbel_Softmax	91.51	91.49	91.48

门控函数	精确率/%	召回率/%	F₁/%
Softmax	90.42	90.38	90.40
Gumbel_Softmax	91.51	91.49	91.48

输入	类别	预测
体育赛事与明星演唱会联动为观众带来双重激情盛宴	7	9
广东高考满分作文17篇一道语文题13万人吃鸭蛋	3	5
社会助力教育公平偏远地区儿童获新知	4	3
糖价长期高位运行果葡糖等替代品需求强劲	0	4

输入	类别	预测
体育赛事与明星演唱会联动为观众带来双重激情盛宴	7	9
广东高考满分作文17篇一道语文题13万人吃鸭蛋	3	5
社会助力教育公平偏远地区儿童获新知	4	3
糖价长期高位运行果葡糖等替代品需求强劲	0	4

模型	精确率/%	召回率/%	F₁/%	参数量/10⁶
ERNIE-RCNN	93.79	93.66	93.72	101.45
ERNIE-Att-RCNN	94.01	93.99	93.99	103.02
改进ERNIE-RCNN	93.96	93.98	93.97	31.77
本文模型	94.26	94.21	94.23	33.34

模型	精确率/%	召回率/%	F₁/%	参数量/10⁶
ERNIE-RCNN	93.79	93.66	93.72	101.45
ERNIE-Att-RCNN	94.01	93.99	93.99	103.02
改进ERNIE-RCNN	93.96	93.98	93.97	31.77
本文模型	94.26	94.21	94.23	33.34

基于轻量化改进ERNIE-RCNN的中文新闻标题分类

PDF下载

李莉 ¹^,² , 张之欣 ¹^,^* , 王小龙 ¹

科学技术与工程 | 论文·自动化技术、计算机技术 2025,25(2): 649-656

收起

科学技术与工程 | 论文·自动化技术、计算机技术 2025, 25(2): 649-656

基于轻量化改进ERNIE-RCNN的中文新闻标题分类

全屏

李莉¹^,², 张之欣¹^,^*, 王小龙¹

作者信息

¹ 华北电力大学控制与计算机工程学院, 保定 071003

² 河北省能源电力知识计算重点实验室, 保定 071003

李莉(1980—),女,汉族,重庆人,博士,副教授。研究方向:大数据分析、深度学习。E-mail:haolily12@163.com。

通讯作者:

^* 张之欣(1998—),男,汉族,河南新乡人,硕士研究生。研究方向:自然语言处理。E-mail:2973916737@qq.com。

Chinese News Title Classification Based on Lightweight Improved ERNIE-RCNN

Li LI¹^,², Zhi-xin ZHANG¹^,^*, Xiao-long WANG¹

Affiliations

¹ School of Control and Computer Engineering, North China Electric Power University, Baoding 071003,China

² Hebei Key Laboratory of Knowledge Computing for Energy & Power, Baoding 071003, China

出版时间: 2025-01-18 doi: 10.12404/j.issn.1671-1815.2307782

文章导航

摘要

收起

针对大型预训练语言模型在处理新闻标题时,面临参数规模庞大、无法高效利用上下文语意特征以及循环卷积神经网络对初始输入元素重要性忽视的问题,提出了一种融合混合专家模型(mixture-of-expert,MoE)的ERNIE与注意力机制的循环卷积神经网络(recurrent convolutional neural networks,RCNN)的新闻标题分类方法。首先,借助MoE改进ERNIE技术进行文本编码,随后利用注意力RCNN在保留文本词序和特征的基础上进行分类。为提高分类能力,通过计算输入的融合上下文权重对RCNN进行改进。在计算MoE中各个专家权重的过程中,选择Gumbel_Softmax作为新型的门控函数以改进传统的Softmax函数,从而更好地控制平滑程度。根据实验结果,发现相较于传统的分类方法,本文研究提出的分类方法展现出显著优势,极大地减少了参数数量。在此基础上,F₁相较于传统模型提升了0.51%。经过消融实验的验证,该分类方法在分类任务上的可行性得到了证实。

关键词

混合专家系统 / 知识增强语义表示模型 / 注意力机制 / 循环卷积神经网络 / 文本分类

Abstract

收起

Aiming at the problems that the large-scale pre-training language model faces when dealing with news headlines, such as huge parameters, inefficient use of contextual semantic features and circular convolution neural network’s neglect of the importance of initial input elements, a news headline classification method that combines ERNIE(enhanced representation through knowledge integration) of mixture-of-expert model and recurrent convolution neural network with attention mechanism were proposed. Firstly, the text was encoded with the help of MoE’s improved ERNIE technology, and then the text was classified with attention RCNN (recurrent convolutional neural networks)on the basis of preserving the word order and characteristics of the text. In order to improve the classification ability, RCNN was improved by calculating the input fusion context weight. In the process of calculating the weights of experts in MoE, Gumbel-Softmax was selected as a new gating function to improve the traditional Softmax function, so as to better control the smoothness. According to the experimental results, it is found that compared with the traditional classification methods, the classification method proposed in this study shows significant advantages and greatly reduces the number of parameters. On this basis, the F₁ value is increased by 0.51% compared with the traditional model. After the ablation experiment, the feasibility of this classification method in the classification task has been confirmed.

Key words

MoE (mixture of experts) / ERNIE (enhanced representation through knowledge integration) / attention mechanism / RCNN (recurrent convolutional neural network) / text classification

引用本文

李莉, 张之欣, 王小龙. 基于轻量化改进ERNIE-RCNN的中文新闻标题分类. 科学技术与工程, 2025 , 25 (2) : 649 -656 . DOI: 10.12404/j.issn.1671-1815.2307782

Li LI, Zhi-xin ZHANG, Xiao-long WANG. Chinese News Title Classification Based on Lightweight Improved ERNIE-RCNN[J]. Science Technology and Engineering, 2025 , 25 (2) : 649 -656 . DOI: 10.12404/j.issn.1671-1815.2307782

正文

收起

在自然语言处理领域,文本分类是一项至关重要的任务,广泛应用于情感分析^[1]、智能客服^[2]、新闻推荐系统^[3]和舆情分析^[4]等信息挖掘领域。新闻文本分类是文本分类领域中的一个关键子任务,它具有广泛的实际应用价值。随着社交媒体的普及,新闻传播速度更快、传播范围更广。一旦发生突发事件并在网络中传播,舆情扩散速度极快。如果传播中的突发事件属于负面新闻,就会造成巨大的网络舆论,监管机构难以有效控制新闻舆论,也不利于社会稳定。网络舆情治理需要提前识别突发事件,而突发事件主要是以新闻文本为载体在互联网中传播。因此,新闻标题分类在网络舆情前期的监督管理工作中尤为重要,迫切需要研究新闻标题分类技术。

ERNIE(enhanced representation through knowledge integration)通过整合知识图谱和语义网络等语义信息,增强了文本的语义表示能力,从而更好地捕捉文本中的语义信息。然而,这也导致了模型在计算资源需求上的增加。为了解决这个问题,研究者们对模型进行了轻量化的改进,以减少硬件资源的需求,从而可以降低部署、运营和维护成本^[5]。同时,轻量化的模型能够更好地运行在移动端设备上,快速且准确的分类模型有助于提高用户体验,随时随地满足用户获取感兴趣类别的新闻需求。

由于预训练语言模型ERNIE的参数量庞大且在提取上下文语义特征方面效率不高,导致将模型部署到移动设备上时面对着庞大的参数计算量问题。为了解决这个问题,现提出一种基于轻量化改进ERNIE-RCNN的中文新闻标题分类方法,旨在进一步提高中文新闻标题分类效率。通过局部替换ERNIE模型中的encoder的全连接层为并行处理的混合专家系统层,在保证不失精度的情况下,大幅降低计算资源需求,并且可以高效地进行词嵌入操作。注意力机制通过为每个单词或字符赋予不同的权重,RCNN(recurrent convolutional neural network)具有捕捉文本序列信息和空间特征的能力,注意力机制下的RCNN模型可以高效地解决上下文语义的学习。

1 文本分类相关研究

收起

1.1 基于深度学习的文本分类研究

Kim^[6]首先将卷积神经网络(convolutional neural network,CNN)应用于文本分类提出了TextCNN,该模型在文本分类方面表现出了出色的性能。接着,Liu等^[7]通过将循环神经网络(recurrent neural network,RNN)引入文本分类中,设计出了能够有效捕捉更长的序列信息的TextRNN。然而,TextCNN在处理含有复杂上下文语境的文本数据方面表现不佳,且TextRNN在处理长序列数据时出现梯度爆炸问题。为了克服这些缺陷,TextRCNN^[8]应运而生,它融合了TextRNN和TextCNN的优点,具备了更快的训练速度、更强大的上下文信息捕捉能力,以及适应稍显复杂的语义特性。

尽管如此,CNN和RNN依然面临训练时间过长的挑战。为解决这一问题,Facebook推出了FastText^[9-10]模型,它在处理简单文本分类任务上表现得更为迅速和高效。然而,FastText模型在捕捉深层次语义关系方面尚有不足。针对这一问题,Johnson等^[11]提出了DPCNN模型,解决了TextCNN在获取文本长距离依赖方面的不足,并通过不断加深网络结构以减轻其缺点。总之,众多文本分类算法各具优缺点,在实际应用中,需要根据具体情况进行权衡和调整。

1.2 基于预训练语言模型的文本分类研究

OpenAI公司提出了生成式预训练模型,模型引入了一种新的自然语言处理范式,即预训练与微调相结合的方式。通过预训练,模型可以直接根据下游任务的需求进行微调,避免了从头开始训练的繁琐过程^[12]。这一新范式的出现对自然语言处理领域产生了显著影响,为其发展带来了巨大推进。BERT模型是由Devlin等^[13]提出的一种基于深层Transformer的预训练语言模型,该模型不仅可以充分利用大规模无标注文本的语义信息,而且还可以加深自然语言处理中各个任务所使用的模型深度。

ERNIE^[14]模型在BERT模型的基础上进行了优化,能够更准确地理解句子中的实体关系,从而更准确地提取语义信息。相比BERT,ERNIE的掩码机制有所不同。它不仅可以对单个字符进行屏蔽,还可以对整个实体进行屏蔽。通过预测被屏蔽的实体来训练模型,进而能够更好地捕捉实体之间的联系。因此,在自然语言处理任务中,ERNIE模型表现出更高的性能、准确性和可靠性,更适用于中文新闻标题分类任务。

1.3 多模型融合进行文本分类研究

基于词向量的模型、基于上下文机制的模型、基于注意力机制的模型和基于语言的模型都有各自的优缺点,基于此很多学者将各种模型组合在一起进行文本分类研究。杨秀璋等^[15]提出一种融合情感词典的改进BiLSTM-CNN+Attention模型的情感分类模型,用多通道注意力机制提取CNN和LSTM输出信息并进行融合,最后结合注意力机制对情感特征进行加成。翟学明等^[16]提出一种混合神经网络和条件随机场相结合的文本情感分析,巧妙地运用CNN和BiGRU两种神经网络来捕获文本的深层语义信息和结构特征,最后采用条件随机场模型作为分类器从而能够准确地判断文本的情感类别。陆晓蕾等^[17]选取国家信息中信公布的全国专利信息为实验数据,提出了一种基于预训练语言模型的BERT-CNN多层级专利分类模型,并探讨了全局与局部策略在专利多层文本分类上的差异。

1.4 混合专家系统的相关发展研究

混合专家系统^[18]是一种新型的监督学习方法,该方法将多层网络进行模块化转换,使用门控网络来决定每个数据应该由哪个模型进行训练。随着深度学习技术的不断进步,计算成本的制约限制了模型规模的进一步扩大。为了解决这一问题,Shazeer等^[19]提出了一种基于稀疏门控的混合专家系统,并将其应用于RNN结构中。该方法在确保高效计算的同时,将模型规模提升了1 000多倍。

随后,Lepikhin等^[20]将混合专家系统的思想拓展到Transformer模型上,并表现出不错的效果。Fedus等^[21]提出了一个高效的预训练大模型Switch Transformer,主要亮点在于简化了混合专家系统的路由算法,从而显著提高了计算效率。Google在2021年推出了一个超大型模型GLaM^[22],其规模比GPT-3^[23]大3倍,但由于采用了稀疏门控的混合专家系统设计,其训练成本仅为GPT-3的1/3。此外,GLaM在29个NLP任务上超越了GPT-3。Xue等^[24]提出了一种名为WideNet的结构,旨在解决在压缩模型参数量的情况下如何获得更好效果的问题。该方法首先通过层之间的参数共享来压缩模型大小,然后采用混合专家系统的设计来扩大模型容量。Zuo等^[25]将混合专家系统和知识蒸馏^[26]相结合,旨在提高推理速度的同时提高模型效果。

2 模型框架及相关技术

收起

2.1 模型框架

针对ERNIE模型具有较大的参数量计算问题、无法高效提取上下文语义特征以及RCNN中的输入向量中的元素具有不同的重要性级别被忽略的问题,本文模型在ERNIE的编码器层引入SGMoE(sparsely-gated mixture-of-expert),并在RCNN中引入注意力机制,旨在减少模型参数量的同时准确提取特征并高效利用所提取到的特征。

本文模型专为中文文本分类任务设计,其整体架构如图1所示,共包含4个主要组成部分:①利用token进行划分句子,得到一个个分词W₁,W₂,…,W_n作为模型的输入层;②采用改进的ERNIE对输入的中文分词进行预训练,获取含有上下文语义的词向量x₁,x₂,…,x_n;③将词向量输入注意力RCNN网络中,结合上下文语境进行权重分配,得到最终的全局语义信息;④经过Softmax激活层处理后,得到最终的输出结果。

2.2 改进ERNIE模型

针对ERNIE模型处理任务存在海量参数,且通过现有方法进行知识蒸馏来训练小的压缩模型的性能显著下降。采用混合专家结构来增加模型容量和推理速度,通过将预训练模型中的前馈神经网络提供给多个专家网络进行适配,这样预训练模型的表示能力在很大程度上得以保留。

受到Lepikhin等^[20]提出的Gshard模型的启发,改进后的ERNIE的encoder如图2所示,将每隔一个encoder的FFN(feed forward networks)层,替换成SGMoE层,将计算稀疏门控值的函数由Softmax更换为Gumbel_Softmax。在推理过程中,自适应地从众多专家网络中选择合适的专家网络以达到负载均衡,从而可以提高效率。

2.3 稀疏门控混合专家系统层

混合专家系统通过集成多个基础模型,旨在提高分类精度。由于不同数据来源的分布存在一定差异,单一模型通常只能处理部分数据,而在其他数据方面表现不佳。针对这一问题,采用多个专家模型处理来自不同来源的数据。每个专家网络在数据分类方面都有其专精的领域,在这些区域中的分类结果优于其他专家网络。通过门控网络进行筛选,决定将输入分配给哪一个专家网络进行处理。结构如图3所示。

对于在当前位置的输入x,输出就是所有专家的加权和,即

(1)

y = ∑ i = 1 n G (x i) E (x i)

式(1)中:x_i为第i个分词的词向量;G(x_i)和E(x_i)分别为门控网络的输出和第i个专家的输出;y_i为了经过加权之后的词向量。

其中门控单元G为Softmax门控,即对输入x映射到n维后,使用Softmax来获取门控值。即

(2)

G (x) = S o f t m a x (x * W g)

式(2)中:W_g为n维权重矩阵。

考虑到不同专家之间的差异性以及负载均衡问题,通过TopK采样的方式实现稀疏性和将门控机制引入噪声的方式实现负载均衡问题。TopK采样方法无法进行梯度计算,因此无法更新网络。采用Gumbel_Softmax^[27]函数代替普通的Softmax,其优点包括可以近似TopK采样的方式、提供采样所需的随机性以及不破坏计算的梯度传播。计算公式为

(3)

G (x) = G u m b e l_S o f t m a x (x * W g)

(4)

y i = e x p (l g π i + g i) τ ∑ j = 1 k e x p (l g π j + g j) τ

(5)

π i = x i * W g i

式(4)中:

g i

和τ为在Softmax的基础上引入的两个额外变量;g_i为增加模型的灵活性而引入的服从Gumbel分布的噪声;

τ

为温度系数,是一个控制平滑程度的系数;π_i为第i个类别的概率;

W g i

为权重矩阵。

2.4 RCNN模型

与传统的基于窗口的神经网络相比较,RCNN能够改善文本窗口大小不足的缺陷,在文本分类任务上展现出优越的分类性能。因此,针对新闻文本分类的特点,加入RCNN模型作为深度特征提取模块。RCNN结构如图4所示。

考虑到参数量计算,利用BiGRU提取文本的上下文信息,并将BiGRU获得的隐层输出与词向量拼接,组合为新的词表示,即

(6)

c l (w i) = f [W l c l (w i - 1) + W s l e (w i - 1)]

(7)

c r (w i) = f [W r c r (w i + 1) + W s r e (w i + 1)]

式中:

c l (w i)

与

c r (w i)

分别为词w_i的前向上文表示和后向下文表示;w_i为输入的第i个词;

e (w i - 1)

为单词w_i_-1的词向量;

c l (w i - 1)

为当前计算词的上一个词的表示形式;W^l为隐含层的转移矩阵;W^sl为另一个矩阵,用于将当前词的语义与下一个单词的前向上文表示相结合;f为一个非线性的激活函数。

由式(6)和式(7)可以计算出每个词的前文表示与后文表示。随后,通过式(8)定义出每个词在神经网络中的表示,即

(8)

x i = [c l (w i), e (w i), c r (w i)]

式(8)中:x_i为将词w_i的前文表示、词向量、后文表示拼接得到的结果,再对该结果使用一次Sigmoid激活函数,得到的句子表示经过最大池化层,得到特征向量并送入分类器进行分类。

2.5 元素级注意力门控机制

在循环神经网络中,输入向量的元素具有不同的重要性,然而这一特点往往被低估。为了应对这个问题,Zhang等^[28]提出了一种简单且有效的EleAtt-RNN结构,使得循环神经网络(RNN)神经元能够具备注意力机制,如图5所示。因此,该模型在处理输入元素时,更加注重权重分配,从而提高了整体性能。

结构单元的计算公式为

(9)

a t = S i g m o i d (w x a X t + w h a h t - 1 + b a)

(10)

x ~ t = a t X t

式中:X_t为第t个词的词向量;h_t_-1为前t-1个词的前向语境对应的词向量;w_xa和w_ha为两个随机权重矩阵;b_a为偏置;a_t为第t个词对上文的贡献权重;

x ~ t

为结合上文加权之后的词向量。

在中文文本中,特征分布往往不均匀,不同的字词对上下文环境的贡献程度存在较大差异。为了解决这一问题,在循环神经网络的基础上引入了一种元素级注意力门控EleAttG。该方法通过逐个字元素地自适应强化重要信息的贡献并抑制不重要信息的影响,从而提高了模型的语义理解能力。

3 实验与结果

收起

3.1 数据集

选用清华大学THUCNews新闻语料库中的一部分数据集,该数据集包含了共计10×10⁴条数据。为了训练、验证和测试模型,从这10×10⁴条数据中随机抽取了8×10⁴条作为训练集,1×10⁴条作为验证集,以及剩余的1×10⁴条作为测试集。每条数据的平均长度为24个字符。这个数据集涵盖了10个类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏和娱乐。在后续的实验中,将针对这些类别进行分类任务。具体数据示例如表1所示。

3.2 实验配置

本研究网络模型的实验配置如表2所示。

3.3 评价指标

使用精确率、召回率和F₁作为评估模型性能的指标。精确率衡量了预测为正实例的样本中真正为正实例的比例,召回率则衡量了所有真实正实例中被正确分类的比例。而F₁作为精确率和召回率的加权平均,综合考虑了两者的结果,提供了更全面的模型性能评估。

TP表示预测为正类且实际也为正类的样本数量,也被称为真正例;TN则表示预测为反类且实际也为反类的样本数量,被称为真反例。与之相对,FP表示预测为正类但实际为反类的样本数量,即假正例;而FN则表示预测为反类但实际为正类的样本数量,也被称为假反例。

精确率(p_recision)和召回率(r_ecall)的计算公式为

(11)

p r e c i s i o n = T P T P + F P × 100 %

(12)

r e c a l l = T P T P + F N × 100 %

加权计算得到F₁,即

(13)

F 1 = 2 p r e c i s i o n r e c a l l p r e c i s i o n + r e c a l l × 100 %

此外,模型的损失函数采用的是交叉熵损失函数,交叉熵表示为真实概率分布与预测概率分布之间的差异,并且交叉熵的值越小,说明模型分类的结果越好。其公式为

(14)

L = 1 N ∑ i = 1 n ∑ c = 1 M y i c l g p i c

式(14)中:L为模型的损失值;M为新闻类别的数量;y_ic为符号函数(0或1),即若样本i的真实类别等于c取1,否则取0;p_ic为观测样本i属于类别c的预测概率。

3.4 实验结果分析

本文模型设计的批尺寸大小(batch_size)设置为64,训练迭代次数epoch设置为10。TextCNN中卷积核的尺寸大小分别取3、4、5,BiGRU和RCNN的隐藏层的数量为256,BERT和ERNIE隐藏层的数量为768,网络模型优化器使用的是Adam,设置学习率为0.001,设Gumbel_Softmax中温度系数

τ

初始值为1并设置衰减率0.01来调整

τ

值。若超过1 000个batch_size效果还没有提升就提前结束训练。

在实验中,RCNN、CNN与BiGRU均采用相同的Word2Vec模型进行词向量表示,所用RNN和RCNN网络都是采用的是双向门控单元循环神经网络BiGRU。通过对这些模型进行实验对比,综合分析了它们的优缺点,并在此基础上提出了本文方法。综合实验对比结果如表3所示。

由表3可以看出来,RCNN、TextCNN与BiGRU在采用相同词向量表示方法下,得到的标题分类结果的F₁达到了82.95%,相较于TextCNN和BiGRU分别提升了1.68%和3.56%。通过对比BERT和ERNIE模型,ERNIE模型的精确率提升了0.44%,说明在处理标题分类问题时ERNIE模型能够得到更为准确完整的词向量语义表示。最后,通过将本文模型分别与ERNIE-CNN、ERNIE-BiGRU和ERNIE-RCNN,相较于这3个模型在F₁上分别提升了1.94%、1.7%和0.51%,从而可以看出本章所提模型能够更充分地捕捉上下文语境从而提高模型的分类精度。

为探究混合专家网络模型中专家数的重要性,将专家数设置为4、6、8、10、12,共计5组实验,以ERNIE-base为例,各组实验结果如表4所示。

根据表4中的结果分析,当专家数取10时,实验表现出最好的效果以及具有相对较小的参数量。

Gumbel_Softmax可以更好地进行采样,通过自适应学习温度系数控制平滑程度,为验证有效性通过对比Softmax进行实验,同时取专家数为10,实验结果如表5所示。从表5可以看出,替换门控函数之后,精确率值提升了1.09%,有着更好的分类效果。

3.5 分类错误样本分析

通过分析预测错误的样本发现,预测错误的样本很多都是语境相比较复杂以及可以被标注为多类别的。其中部分分类错误的样本如表6所示。

3.5 消融实验

为了验证模型中关键模块设计的合理性和有效性,同时确保模型在保持高精度的同时具有更低的参数计算量,本文进行了消融实验,相关结果如表7所示。

通过实验对比与分析,与原始的ERNIE-RCNN相比,本文模型在精确率上提升了0.47%且参数量约降为原来的1/3,能够在保持较高分类效率的同时显著降低参数量。改进后的Att-RCNN能够更加有效地让输入元素关注到其上下文语境,并在识别性能方面表现得更为优异。

4 结论

收起

随着新媒体平台的不断演进,新闻传播速度正日益加快,但这也可能带来潜在的舆情问题。为了迅速遏制不良舆论蔓延,高效的新闻文本分类变得尤为关键。然而,当前新闻标题特征稀疏、信息处理难度大,并且大规模模型受限于延时需求等多重挑战。因此,提出了一种融合ERNIE和改进RCNN的混合专家网络新闻标题文本分类模型。实验结果表明,模型在保持较低参数量计算的同时,实现了对短文本的高效分类。这得益于采用了基于ERNIE预训练语言模型的向量表示提取方法,确保在初步特征提取阶段保留丰富的语义信息;引入稀疏门控混合专家网络策略显著减少了模型参数量计算;并通过元素级注意力门控机制实现了字词与上下文的紧密结合。

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

诸林云, 范菁, 曲金帅, 等. 基于BERT与多通道卷积神经网络的细粒度情感分类[J]. 科学技术与工程, 2023, 23(33): 14264-14270.

Zhu

Linyun

, Fan

Jing

, Qu

Jinshuai

, et al. Fine-grained sentiment classification based on BERT and multi-channel convolutional neural networks[J]. Science Technology and Engineering, 2023, 23(33): 14264-14270.

[2]

俞学豪, 赵子岩, 马应龙, 等. 基于BR和GBDT的电力信息通信客服系统多标签文本分类[J]. 电力系统自动化, 2021, 45(11): 144-151.

Xuehao

, Zhao

Ziyan

, Ma

Yinglong

, et al. Multi-label text classification of power information communication customer service system based on BR and GBDT[J]. Automation of Electric Power Systems, 2015, 45(11): 144-151.

[3]

孟祥福, 霍红锦, 张霄雁, 等. 个性化新闻推荐方法研究综述[J]. 计算机科学与探索, 2023, 17(12): 2840-2860.

Meng

Xiangfu

, Huo

Hongjin

, Zhang

Xiaoyan

, et al. Research review on personalized news recommendation methods[J]. Exploration of Computer Science and Technology, 2023, 17(12): 2840-2860.

[4]

华玮, 吴思洋, 俞超, 等. 面向网络舆情事件的多层次情感分歧度分析方法[J]. 数据分析与知识发现, 2023, 7(4): 16-31.

Hua

Wei

, Wu

Siyang

, Yu

Chao

, et al. Multi-level emotion divergence analysis method for network public opinion events[J]. Data Analysis and Knowledge Discovery, 2023, 7(4): 16-31.

[5]

王军, 冯孙铖, 程勇. 深度学习的轻量化神经网络结构研究综述[J]. 计算机工程, 2021, 47(8): 1-13.

Wang

Jun

, Feng Suncheng, Cheng Yong. A review of lightweight neural network structures for deep learning[J]. Computer Engineering, 201, 47(8): 1-13.

[6]

Kim

. Convolutional neural networks for sentence classification[C]// Proceedings of Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha: EMNLP, 2014: 1746-1751.

[7]

Liu

, Qiu

, Huang

. Recurrentneural network for text classification with multi-task learning[J]. arXiv preprint arXiv: 1605.05101, 2016.

[8]

Lai

, Xu

, Liu

, et al. Recurrent convolutional neural networks for text classification[J]. AAAI Press, 2015.DOI: 10.1609/aaai.v29i1.9513.

[9]

Joulin

, Grave

, Bojanowski

, et al. Bag of tricks for efficient text classification[J]. arXiv preprint arXiv: 1607.01759, 2016.

[10]

Bojanowski

, Grave

, Joulin

, et al. Enriching word vectors with subword information[J]. Transactions of the Association for Computational Linguistics, 2017, 5: 135-146.

[11]

Johnson

, Zhang

. Deep pyramid convolutional neural networks for text categorization[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1:Long Papers). Vancouver: DPCNN, 2017: 562-570.

[12]

余同瑞, 金冉, 韩晓臻, 等. 自然语言处理预训练模型的研究综述[J]. 计算机工程与应用, 2020, 56(23): 12-22.

Tongrui

, Jin

Ran

, Han

Xiaozhen

, et al. A review of research on pre-training models for natural language processing[J]. Computer Engineering and Applications, 2019, 56(23): 12-22.

[13]

Devlin

, Chang

M W

, Lee

, et al. Bert: pretraining of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv: 1810.04805, 2018.

[14]

Sun

, Wang

, Li

, et al. Ernie: enhanced representation through knowledge integration[J]. arXiv preprint arXiv: 1904.09223, 2019.

[15]

杨秀璋, 郭明镇, 候红涛, 等. 融合情感词典的改进BiLSTM-CNN+Attention情感分类算法[J]. 科学技术与工程, 2022, 22(20): 8761-8770.

Yang

Xiuzhang

, Guo

Mingzhen

, Hou

Hongtao

, et al. Improved BiLSTM-CNN+Attention emotion classification algorithm based onIntegrated emotion dictionary[J]. Science Technology and Engineering, 2019, 22(20): 8671-8770.

[16]

翟学明, 魏巍. 混合神经网络和条件随机场相结合的文本情感分析[J]. 智能系统学报, 2021, 16(2): 202-209.

Zhai

Xueming

, Wei

Wei

. Text sentiment analysis by combining hybrid neural networks and conditional random fields[J]. Journal of Intelligent Systems, 201, 16(2): 202-209.

[17]

陆晓蕾, 倪斌. 基于预训练语言模型的BERT-CNN多层级专利分类研究[J]. 中文信息学报, 2021, 35(11): 70-79.

Xiaolei

, Ni

Bin

. Research on BERT-CNN multi-level patent classification based onpre-trained language model[J]. Journal of Chinese Information Technology, 2019, 35(11): 70-79.

[18]

Jacobs

R A

, Jordan

M I

, Nowlan

S J

, et al. Adaptive mixtures of local experts[J]. Neural Computation, 1991, 3(1): 79-87.

[19]

Shazeer

, Mirhoseini

, Maziarz

, et al. Outrageously large neural networks: the sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv: 1701.06538, 2017.

[20]

Lepikhin

, Lee

H J

, Xu

, et al. Gshard: scaling giant models with conditional computation and automatic sharding[J]. arXiv preprint arXiv: 2006.16668, 2020.

[21]

Fedus

, Zoph

, Shazeer

. Switch transformers: scaling to trillion parameter models with simple and efficient sparsity[J]. The Journal of Machine Learning Research, 2022, 23(1): 5232-5270.

[22]

, Huang

, Dai

A M

, et al. Glam: efficient scaling of language models with mixture-of-experts[J]. arXiv preprint arXiv: 2112.06905, 2021.

[23]

Brown

, Mann

, Ryder

, et al. Language models are few-shot learners[J]. Advances in Neural Information Processing Systems, 2020, 33: 1877-1901.

[24]

Xue

, Shi

, Wei

, et al. Go wider instead of deeper[J]. arXiv preprint arXiv: 2107.11817, 2021.

[25]

Zuo

, Zhang

, Liang

, et al. Moebert: from bert to mixture-of-experts via importance-guided adaptation[J]. arXiv preprint arXiv: 2204.07675, 2022.

[26]

Hinton

, Vinyals

, Dean

. Distilling the knowledge in a neural network[J]. Computer Science, 2015, 14(7): 38-39.

[27]

Jang

, Gu

, Poole

. Categorical reparameterization with gumbel-softmax[J]. arXiv preprint arXiv: 1611.01144, 2016.

[28]

Zhang

, Xue

, Lan

, et al. EleAtt-RNN: adding attentiveness to neurons in recurrent neural networks[J]. IEEE Transactions on Image Processing, 2019, 29: 1061-1073.

2025年第25卷第2期

PDF下载

225

引用本文

BibTeX

文章信息

doi: 10.12404/j.issn.1671-1815.2307782

接收时间：2023-10-07
首发时间：2025-12-05
出版时间：2025-01-18

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2023-10-07
修回日期：2024-10-17

基金

作者信息

¹ 华北电力大学控制与计算机工程学院, 保定 071003

² 河北省能源电力知识计算重点实验室, 保定 071003

通讯作者:

^* 张之欣(1998—),男,汉族,河南新乡人,硕士研究生。研究方向:自然语言处理。E-mail:2973916737@qq.com。

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/kxjsygc/CN/10.12404/j.issn.1671-1815.2307782

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT

输入	类别
皇马剥开胜利有个不得不说问题走了的人是否会被怀念	7
某知名女星边工作边犒劳员工率12人齐赴戛纳玩	9
常州一小区现楼晃晃 10栋居民楼晃动半年多	1
多地学校探索多元化评价体系学生全面发展受重视	3
顺义香悦四季95~115 m² 3居新房源在售享98折	1

输入

类别

皇马剥开胜利有个不得不说问题走了的人是否会被怀念

某知名女星边工作边犒劳员工率12人齐赴戛纳玩

常州一小区现楼晃晃 10栋居民楼晃动半年多

多地学校探索多元化评价体系学生全面发展受重视

顺义香悦四季95~115 m² 3居新房源在售享98折

环境	配置参数
处理器	Intel(R) Core (TM) i7-7700K CPU @4.20 GHz
显卡	NVIDIA GEFORCE RTX 3080Ti
内存	32 GB
框架	PyTorch 1.10

环境

配置参数

处理器

Intel(R) Core (TM) i7-7700K CPU @4.20 GHz

显卡

NVIDIA GEFORCE RTX 3080Ti

内存

32 GB

框架

PyTorch 1.10

模型	精确率/%	召回率/%	F₁/%
TextCNN	81.83	80.71	81.27
BiGRU	79.76	79.02	79.39
RCNN	83.77	82.15	82.95
BERT	90.68	90.55	90.61
ERNIE	91.04	90.99	91.01
ERNIE+CNN	92.32	92.28	92.29
ERNIE+BiGRU	92.56	92.51	92.53
ERNIE+RCNN	93.79	93.66	93.72
本文方法	94.26	94.21	94.23

模型

精确率/%

召回率/%

F₁/%

TextCNN

81.83

80.71

81.27

BiGRU

79.76

79.02

79.39

RCNN

83.77

82.15

82.95

BERT

90.68

90.55

90.61

ERNIE

91.04

90.99

91.01

ERNIE+CNN

92.32

92.28

92.29

ERNIE+BiGRU

92.56

92.51

92.53

ERNIE+RCNN

93.79

93.66

93.72

本文方法

94.26

94.21

94.23

专家数	精确率/%	召回率/%	F₁/%	参数量/10⁶
4	90.84	90.85	90.84	26.64
6	91.21	91.19	91.20	27.83
8	91.37	91.32	91.34	29.01
10	91.51	91.45	91.48	30.19
12	91.38	91.36	91.37	31.38

专家数

精确率/%

召回率/%

F₁/%

参数量/10⁶

90.84

90.85

90.84

26.64

91.21

91.19

91.20

27.83

91.37

91.32

91.34

29.01

91.51

91.45

91.48

30.19

91.38

91.36

91.37

31.38

门控函数	精确率/%	召回率/%	F₁/%
Softmax	90.42	90.38	90.40
Gumbel_Softmax	91.51	91.49	91.48

门控函数

精确率/%

召回率/%

F₁/%

Softmax

90.42

90.38

90.40

Gumbel_Softmax

91.51

91.49

91.48

输入	类别	预测
体育赛事与明星演唱会联动为观众带来双重激情盛宴	7	9
广东高考满分作文17篇一道语文题13万人吃鸭蛋	3	5
社会助力教育公平偏远地区儿童获新知	4	3
糖价长期高位运行果葡糖等替代品需求强劲	0	4

输入

类别

预测

体育赛事与明星演唱会联动为观众带来双重激情盛宴

广东高考满分作文17篇一道语文题13万人吃鸭蛋

社会助力教育公平偏远地区儿童获新知

糖价长期高位运行果葡糖等替代品需求强劲

模型	精确率/%	召回率/%	F₁/%	参数量/10⁶
ERNIE-RCNN	93.79	93.66	93.72	101.45
ERNIE-Att-RCNN	94.01	93.99	93.99	103.02
改进ERNIE-RCNN	93.96	93.98	93.97	31.77
本文模型	94.26	94.21	94.23	33.34

模型

精确率/%

召回率/%

F₁/%

参数量/10⁶

ERNIE-RCNN

93.79

93.66

93.72

101.45

ERNIE-Att-RCNN

94.01

93.99

103.02

改进ERNIE-RCNN

93.96

93.98

93.97

31.77

本文模型

94.26

94.21

94.23

33.34