科学技术与工程

使用方法	AUC
STG-NF	85.9	69.0
STG-NF+Trans	86.1	69.3
STG-NF+CBAMg	86.2	69.8
STG-NF+CBAMt	86.0	69.5
STG-NF+Trans+CBAMg	86.1	70.0
STG-NF+Trans+CBAMt	86.3	69.7
STG-NF+ CBAMg+CBAMt	86.3	70.0
STG-NF+Trans+ CBAMg+CBAMt	86.4	70.2

使用方法	AUC
STG-NF	85.9	69.0
STG-NF+Trans	86.1	69.3
STG-NF+CBAMg	86.2	69.8
STG-NF+CBAMt	86.0	69.5
STG-NF+Trans+CBAMg	86.1	70.0
STG-NF+Trans+CBAMt	86.3	69.7
STG-NF+ CBAMg+CBAMt	86.3	70.0
STG-NF+Trans+ CBAMg+CBAMt	86.4	70.2

方法	年份	是否监督学习	AUC
文献[7]	2020年	半监督学习	76.1
文献[9]	2022年	无监督学习	79.6
文献[16]	2022年	自监督学习	83.8
文献[17]	2022年	自监督学习	84.2
STG-NF	2023年	无监督学习	85.9
改进后的STG-NF	2024年	无监督学习	86.4

方法	年份	是否监督学习	AUC
文献[7]	2020年	半监督学习	76.1
文献[9]	2022年	无监督学习	79.6
文献[16]	2022年	自监督学习	83.8
文献[17]	2022年	自监督学习	84.2
STG-NF	2023年	无监督学习	85.9
改进后的STG-NF	2024年	无监督学习	86.4

改进时空图归一化流的异常行为识别方法

PDF下载

许辰月 , 王蓉 , 郭放 , 曾昭龙

科学技术与工程 | 论文·自动化技术、计算机技术 2025,25(18): 7693-7699

收起

科学技术与工程 | 论文·自动化技术、计算机技术 2025, 25(18): 7693-7699

改进时空图归一化流的异常行为识别方法

全屏

许辰月, 王蓉, 郭放, 曾昭龙

作者信息

中国人民公安大学信息网络安全学院, 北京 100038

许辰月(1999—),女,汉族,安徽淮南人,硕士研究生。研究方向:异常行为识别。E-mail:2697378920@qq.com。

通讯作者:

^* 王蓉(1971—),女,汉族,辽宁丹东人,博士,教授。研究方向:模式识别。E-mail:dbdxwangrong@163.com。

Abnormal Behavior Recognition Method of Improved Spatio-temporal Graph Normalizing Flow

Chen-yue XU, Rong WANG, Fang GUO, Zhao-long ZENG

Affiliations

School of Information Network Security of People’s Public Security University of China, Beijing 100038, China

出版时间: 2025-06-28 doi: 10.12404/j.issn.1671-1815.2406479

文章导航

摘要

收起

针对异常行为识别中人体动态骨架特征表达能力不充分的问题,提出了一种基于改进时空图归一化流的无监督异常行为识别方法,利用Transformer和卷积块注意力模块,在全局域和时空域中提高模型的特征表达能力,提升异常行为识别算法性能。首先,将Transformer模块引入归一化流的仿射层,在全局层面增强动态骨架特征信息的有效性;然后,分别在空间与时间图卷积模块中引入卷积注意力,有效地提升动态骨架特征的空间和时间表达能力;最后,在ShanghaiTech数据集和UBnormal数据集上进行仿真验证,识别精确度分别达到86.4%和70.2%,证明了方法的有效性。

关键词

异常行为识别 / 时空图卷积 / 归一化流 / 动态骨架特征

Abstract

收起

In order to solve the problem of insufficient feature extraction of human dynamic skeleton features in abnormal behavior recognition, an unsupervised abnormal behavior recognition method based on enhanced spatiotemporal graph normalization flow was proposed. Transformer and convolution block attention module were employed to enhance the feature expression capability of the model and the performance of the abnormal behavior recognition algorithm in the global and spatiotemporal domains. Firstly, the Transformer module was incorporated into the affine layer of the normalized flow to augment the efficacy of dynamic skeleton feature information at the global level. Subsequently, the convolution attention was introduced into the convolution module of space and time graphs respectively to effectively enhance the spatial and temporal representation of dynamic skeleton features. Finally, simulation verification was conducted on the ShanghaiTech and UBnormal datasets, and the recognition accuracy attains 86.4% and 70.2% respectively, thereby demonstrating the effectiveness of the method.

Key words

anomalous action recognition / spatio-temporal graph convolution / normalizing flow / dynamic skeleton features

引用本文

许辰月, 王蓉, 郭放, 曾昭龙. 改进时空图归一化流的异常行为识别方法. 科学技术与工程, 2025 , 25 (18) : 7693 -7699 . DOI: 10.12404/j.issn.1671-1815.2406479

Chen-yue XU, Rong WANG, Fang GUO, Zhao-long ZENG. Abnormal Behavior Recognition Method of Improved Spatio-temporal Graph Normalizing Flow[J]. Science Technology and Engineering, 2025 , 25 (18) : 7693 -7699 . DOI: 10.12404/j.issn.1671-1815.2406479

正文

收起

人体异常行为识别是计算机视觉领域的一个重点研究方向,这一研究方向的核心是将包含行人异常动作的视频帧识别出来,并加以标识。异常行为识别技术有广泛的应用空间,如街道安全视频监控、考场视频监控以及养老院视频监控等,能够大大节省人力物力,有极大的实际应用价值。

人体异常行为识别算法多基于监督学习的基础进行研究,这些方法大致可以分为三类。第一类是基于支持向量机的异常行为识别方法,例如,邵宝平等^[1]提出,通过支持向量机机制结合长短期记忆网络,构建的双层识别模型分辨正常和异常行为。第二类是基于卷积神经网络的异常行为识别算法,神经网络作为分类器可以运用于单分类和多分类问题,在细分异常行为种类方面应用较多,例如,王新文等^[2]提出了一种基于双重残差卷积网络的跌倒识别方法,通过残差网络的嵌套,在避免模型训练时产生梯度消失和过拟合等问题的同时充分融合了深层和千层视觉特征。姬晓飞等^[3]提出了一种基于增强特征的人体检测与异常行为识别融合算法,将卷积神经网络提取到的人体外观特征与人体热力图特征融合得到增强特征,后送入Transformer网络进行异常行为识别。第三类是基于统计方法的异常行为识别方法,彭月平等^[4]应用粗糙集理论对原始数据集中信息进行提取和分类,提升异常行为识别及分类算法精确度。

现实中的视频数据量大,且异常行为种类繁杂多变,现有异常行为标注数据集数量较少、质量较低,因此基于无监督学习的人体异常行为识别算法研究就显得十分必要。通常基于无监督学习的人体异常行为识别算法多采用聚类算法作为分类器,将异常行为与正常行为进行区分,例如,Nady等^[5]利用梯度时空自相关描述符,提取视频帧中的时空运动特征,接着使用K-medoids聚类技术对提取出的特征进行分类。Cho等^[6]提出了一个隐式的双路径自动编码器,隐式地建模外观和运动特征学习正常的视频模式,基于归一化流的生成模型对提取特征进行正态密度估计,并使用非分布外检测来识别异常。上述方法均以视频帧作为输入对视频中人体进行异常行为识别,在这些方法中环境的变化对算法的鲁棒性有一定的影响,所以另一部分异常行为识别算法以人体姿态估计图作为输入,通过先预处理视频帧数据,提取人体骨架图作为异常行为识别方法的输入,有效规避了背景、光线以及服装不同而产生的噪声。Markovitz等^[7]使用了聚类技术,首先提取了人体姿态图,并映射到空间作为时空特征,后采用深度嵌入式聚类技术对提取出的时空特征进行计算。Sato等^[8]利用了预训练的骨架特征提取器,并将提取骨架特征与用户提示在公共空间域对齐设置异常分数。Zaheer等^[9]提出无监督生成性合作学习(unsupervised generative cooperative learning, GCL),通过构建生成器与判别器之间的交叉监督进行异常行为识别Hirschorn等^[10]首次将归一化流技术运用到人体异常行为识别领域,提出了时空图归一化流模型(special temporal graph normalizing flow, STG-NF),提取视频中人体的姿态图作为特征,进行异常行为识别,在识别效果上也有着不俗的表现。

STG-NF实现了计算的简便化和系统设计的轻量化,然而在特征提取的全面性方面仍有优化的空间。因此,在STG-NF模型基础上,现进行改进,提出一种基于多注意力机制与归一化流的人体异常行为识别方法。首先,将Transformer网络引入归一化流,优化全局特征的提取。其次,在时空图卷积网络的空间图卷积网络前添加卷积块注意力模块,增强空间特征的表达性。最后,在时空图卷积网络的时间图卷积网络前添加卷积块注意力模块,增强时间特征的表达性。

1 模型结构

收起

针对STG-NF在提取特征方面进行优化,改进后模型能够从人体姿态图序列中提取到更加完善的动态骨架全局和时空特征,有效提升了异常行为识别的精度。模型具体流程如图1所示。

模型使用Alphapose人体骨架提取模型^[11]提取人体姿态图后送入改进的时空图归一化流模型中。在每一个时空归一化流步长中,从视频帧中提取出的人体姿态图序列输入至激活归一化层,对数据进行预处理,对原始参数进行初始化和批量标准化。然后通过排列层重新排列输入通道顺序,并送入仿射层。在仿射层中,输入的数据按照通道数划分为两部分,X₀保持不变,而X₁则基于X₀进行仿射变换。X₀首先经过Transformer层进行动态骨架的全局特征提取,增强动态骨架特征的全局信息,然后进入改进后的时空图卷积模块,通过双层的卷积注意力模块(convolutional block attention module, CBAM)^[12],增强动态骨架特征的时空信息,一同提升了特征的表达能力。将提取出的特征向量通过矩阵加法与矩阵乘法与X₁结合得到Y₁,将Y₀和Y₁连接得到最终的特征向量Y。通过高斯变换将Y映射到隐空间,归一化为标准分布,通过设定的阈值与计算出的视频帧分数比较,进而区分出包含异常行为的视频帧。

1.1 基于Transformer的归一化流

将Transformer模型^[13]引入归一化流仿射层,在分离出的特征进入时空图卷积模型之前,先进入Transformer模块进行特征优化,有效提升了信息提取的有效性,优化了全局的特征提取,对异常行为识别模型的精度优化有一定的提升效果。

1.1.1 归一化流

归一化流^[14]是一种无监督的密度估计模型,定义为可逆映射f:X→z,即从数据空间X到隐空间z。函数f是使用一个由参数θ参数化的神经网络来实现的。

(1)$z=f_{\theta}(\boldsymbol{x})=g_{\theta}^{-1}(\boldsymbol{x})$

即

(2)$\boldsymbol{x}=g_{\theta}(\boldsymbol{z})$

通过K个f函数相乘,可以得到可逆的变化序列,即归一化流模型。

(3)$f=f_{1} \circ f_{2} \circ \cdots \circ f_{K}$

它由一个神经网络参数化,其结构旨在确保雅可比矩阵行列式的可逆性和有效的计算。

1.1.2 Transformer注意力机制

Transformer的整体结构如图2所示。对编码器和解码器使用堆叠的自注意层和点级的全连接层,图的左半部分和右半部分分别展示了Transformer模型中编码器和解码器中自注意力层等卷积层的堆叠方式。多头注意力机制是Transformer网络中的重要模块,不同于单头注意力机制对查询序列、键和值做单一注意力卷积操作,多头注意力机制将查询序列、键和值的计算并行化,用学习到的不同的线性投影对查询序列、键和值进行映射,并在每个查询序列、键和值的映射过程中并行地执行注意力卷积操作,最终输出d_v维的输出向量。

多头注意力机制使得模型可以连带地关注到不同表示子空间的不同部位的信息,而单头注意力机制无法做到这一点。多头注意力机制的具体操作过程用公式为

(4)$\begin{array}{c} \text { MultiHead }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\text { Concat }\left(\text { head }_{1}, \cdots,\right. \\ \text { head } \left._{2}, \operatorname{head}_{h}\right) \boldsymbol{W}^{0} \end{array}$

(5)$\text { head }_{i}=\text { Attention }\left(\boldsymbol{Q} \boldsymbol{W}_{i}^{Q}, \boldsymbol{K} \boldsymbol{W}_{i}^{K}, \boldsymbol{V} \boldsymbol{W}_{i}^{V}\right)$

式中:Q、K、V分别为查询向量、键向量和值向量;W为注意力权值矩阵。

其中参数矩阵代表含义为

(6)$\boldsymbol{W}_{i}^{Q} \in \mathbf{R}^{d_{\text {model }} \times d_{\mathrm{k}}}$

(7)$\boldsymbol{W}_{i}^{K} \in \mathbf{R}^{d_{\text {model }} \times d_{\mathrm{k}}}$

(8)$\boldsymbol{W}_{i}^{V} \in \mathbf{R}^{d_{\text {model }} \times d_{\mathrm{v}}}$

放缩点积注意力是Transformer网络中最基础的组成环节,在放缩点积注意力机制中,模型的输入是维度为d_k的查询序列和键,以及维度为d_v的值组成,模型对每一组查询序列和键进行点积运算后除以

d v

,接着使用Softmax函数来获取这些值的权重。放缩点积注意力机制放弃了权重矩阵,直接建立查询序列与键之间的映射关系,不需要参数,降低了模型的复杂性,由使用放缩防止了数据溢出,在实际应用上提升了模型的计算速度。具体计算过程为

(9)$\text { Attention }(\boldsymbol{Q}, \boldsymbol{K}, \boldsymbol{V})=\operatorname{softmax}\left(\frac{\boldsymbol{Q} \boldsymbol{K}^{\mathrm{T}}}{\sqrt{d_{\mathrm{k}}}}\right) \boldsymbol{V}$

1.1.3 基于Transformer的归一化流

依据Transformer结构能够很好地提取全局特征,关注到远距离特征之间的相互影响,本文研究将Transformer结构引入归一化流的仿射层,将分流后的特征送入Transformer层进行使用全局注意力,进行全局动态骨架特征增强,有效地增加了模型的特征表达能力。具体结构如图3所示。

1.2 空间特征提取与优化

1.2.1 改进的空间特征提取模块

利用CBAM的特性将其与ST-GCN模块结合起来,提升ST-GCN网络的特征提取能力,改进后的ST-GCN网络结构如图4所示。

为了提升动态骨架特征的空间信息表达能力,提出了改进的时空图卷积模块,首先在图卷积(graph convolution network, GCN)加入了一个CBAM卷积注意力模块,使用CBAM模块对动态骨架特征的通道和空间两个维度进行重点特征聚焦,达到提升特征空间信息表达能力的目的。

1.2.2 CBAM卷积注意力

CBAM作为一个轻量级的前馈神经网络自注意力模块,可以灵活地插入各类神经网络结构中,进行端到端的训练,具体结构如图5所示。

CBAM模块同时在通道和空间两个维度进行注意力图推断,然后与输入特征图进行乘法运算,进行自适应的特征细化操作。

在CBAM模块中,输入特征向量F∈R^b^×^c^×^t^×^v,其中b为批次大小,c为通道数,t和v分别为时间维度帧数和空间维度节点数。该特征向量首先进入通道注意力模块。在通道注意力模块中,输入特征首先并行通过平均池化操作和最大池化操作聚合空间信息,得到的描述符分别为

F a v g c

和

F m a x c

,这两个描述符在由多层感知器组成的共享网络中生成通道注意力图M_c∈R^c^×1×1,在共享网络作用于每一个描述符后,使用求和运算进行向量合并,得到输出特征向量。具体运算步骤的公式为

(10)$\begin{array}{l} \boldsymbol{M}_{c}(\boldsymbol{F})=\boldsymbol{\sigma}\{\operatorname{MLP}[\operatorname{AvgPool}(\boldsymbol{F})]\}+ \\ \quad \operatorname{MLP}(\operatorname{MaxPool}(\boldsymbol{F}))=\boldsymbol{\sigma}\left(\boldsymbol{W}_{1}\left\{\boldsymbol{W}_{0}\left[\boldsymbol{F}_{\text {avg }}^{c}(x)\right]\right\}\right)+ \\ \quad \boldsymbol{W}_{1}\left\{\boldsymbol{W}_{0}\left[\boldsymbol{F}_{\max }^{c}(x)\right]\right\} \end{array}$

式(10)中:σ为sigmoid函数;W₀∈R^b^×^c^×^t^×^v;W₁∈R^c^×^c/r;W₀和W₁分别为共享网络的权重;AvgPool为平均池化操作;MaxPool为最大池化操作。

通道注意力模块输出的特征向量将进入空间注意力模块进行进一步的特征提取工作,空间注意力模块作为通道注意力模块的补充,更加关注输入特征的空间维度信息提取。首先串行合并了平均池化和最大池化操作用于生成特征描述符,并应用卷积计算生成空间注意力图M_s(F)∈R^H^×^W对重点部分进行聚焦。具体操作为分别通过两种池化操作生成两张二维的注意力图

F a v g s

∈R^1×^W^×^H和

F m a x s

∈R^1×^W^×^H,分别代表进行平均池化和最大池化操作后所得的特征向量,后通过标准卷积进行连接,最终生成二维的空间注意力图。具体运算步骤的公式为

(11)$\begin{aligned} M_{s}(\boldsymbol{F}) & =\boldsymbol{\sigma}\left(f^{7 \times 7}\{([\operatorname{AvgPool}(\boldsymbol{F}) ; \operatorname{MaxPool}(\boldsymbol{F})]\})\right. \\ & =\boldsymbol{\sigma}\left\{f^{7 \times 7}\left(\left[\boldsymbol{F}_{\text {avg }}^{\mathrm{s}} ; \boldsymbol{F}_{\max }^{\mathrm{s}}\right]\right)\right\} \end{aligned}$

式(11)中:σ为sigmoid函数;f^7×7代表滤波器大小为7×7的卷积运算。

1.3 时间特征提取与优化

1.3.1 改进的时间特征提取模块

在经过图卷积模块后,在时间卷积模块之前又加入了一个CBAM模块,继续对经过图卷积的特征向量进行通道和空间注意力计算,获取深层的通道和空间信息,丰富提取出的特征向量。

在时间卷积模块之前引入CBAM注意力模块,不仅可以进一步整合完善先前图卷积网络中提取出的特征向量,同时关注重点特征向量通道,对于之后的时间特征提取有着一定的提升与优化作用,使得总体获得的特征向量包含更加丰富的信息,便于之后异常行为的识别工作。此处添加的CBAM模块的具体网络结构与数据流动方式与1.2.2节中对于CBAM模块的介绍一致。

1.3.2 时空动态建模

ST-GCN模型基于人体骨架动力学,区别于以往依赖手工提取或通过遍历规则进行的传统骨骼建模方法,提出了一种从人体姿态图中学习空间和时间两个维度信息的动态骨架模型,优化了骨架模型的表达能力并使其拥有更好的泛化能力。在对骨架序列内的时空动态进行建模的任务中,通过将时间上相邻的节点添加入邻接节点集合,即

(12)$\begin{array}{c} B\left(v_{t i}\right)=\left\{v_{q j} \mid d\left(v_{t i}, v_{q j}\right) \leqslant K,\right. \\ \left.|q-t| \leqslant\left\lfloor\frac{\Gamma}{2}\right\rfloor\right\} \end{array}$

式(12)中:v_ti为在t时间的第i个节点;v_qj为在q时间的第j个节点参数;Γ为时间核大小,控制包含在邻居图中的时间范围。

通过该操作扩展了邻域的概念,将空间图卷积神经网络扩展到空间时间域。在采样函数的构造上,该模型对于节点v_ti的邻接节点集合B(v_ti)={v_ti|d(v_ti,v_tj)≤D}上定义采样函数P:B(v_ti)→V,可表示为

(13)$P\left(v_{t i}, v_{t j}\right)=v_{t j}$

式(13)中:d(v_ti,v_tj)为从节点v_ti到节点v_tj的最短路径,该模型中的取值为1。

在加入采样函数和权重函数后,完整时空图卷积模型为

(14)$l_{s t}\left(v_{q j}\right)=l_{t i}\left(v_{t j}\right)+(q-t+\lfloor\Gamma / 2\rfloor) K$

式(14)中:l_ti(v_tj)为在v_tj上的单帧标签映射。

这样,就对所构造的时空图有了一个定义良好的卷积运算。

1.4 异常分数计算

经过全局特征提取、空间特征提取和通道特征提取后的特征可以表示为

(15)$f_{\text {out }}\left(v_{i t}\right)=\sum_{v_{l m} \in N\left(v_{i t}\right)} f_{\text {in }}\left(v_{l m}\right) w\left(v_{i t}, v_{l m}\right)$

式(15)中:N(v_it)为关节点v_it的邻接点集;w(v_it,v_lm)为由时空邻接矩阵定义的节点v_it和节点v_lm之间的权重。

模型通过学习高斯分布为Z~N(μ_normal,I)可逆映射,得到由人体动态骨架序列p_X映射在隐空间的高斯分布p_Z,对每个人体动态骨架序列的异常分数进行估计,该过程可由公式表示为

(16)$\log _{2} p_{Z}(z)=\text { Const }-\frac{1}{2}\left(z-\mu_{\text {normal }}\right)$

在模型的训练过程中,通过不断减小训练样本的负对数似然性值L_null来实现模型的优化,该过程可以由公式表示为

(17)$L_{\text {null }}=-\log _{2} p_{Z}[f(x)]-\log _{2}\left|\operatorname{det}\left(\frac{\mathrm{~d} f}{\mathrm{~d} x}\right)\right|$

2 实验结果与分析

收起

2.1 数据集与评估指标

使用了ShanghaiTech数据集和UBnormal^[15]数据集作为异常行为识别模型常用数据集。ShanghaiTech数据集包含13个场景的330个训练和107个测试视频,其中的测试集已经完成了每一帧的异常行为标记。ShanghaiTech数据集数据的丰富性,和异常行为种类的多样性,都使得在异常行为识别领域,该数据集在同类数据集的横向比较中占有优势。UBnormal数据集是针对异常行为识别算法研究的公开监督数据集,拥有29个虚拟场景共236 902个视频帧。与其他数据集相比,UBnormal数据集进行了像素级的异常行为标注,并使全监督学习在异常行为识别领域成为可能。

在评估方面,模型对视频的每一帧计算一个分数,数据集分数是用于连接测试集中所有帧分数的ROC曲线下的面积,这是最常见的度量标准称为Micro AUC。

2.2 实验环境

模型在GPU型号为RTX3090,pytorch版本为3.8.0的环境下,epoch设置为8,batch size设置为256,学习率为4×10^-5,实验结果如下。

2.3 消融实验

为减少实验赘述,将插入在ST-GCN图卷积前方的CBAM模块简称为CBAMg,将插入在ST-GCN时间卷积前方的CBAM模块简称为CBAMt,将Transformer模块简称为Trans,消融实验结果如表1所示。

在表1中可以看到,使用ShanghaiTech数据集进行训练时,在添加Transformer模块后,精确度上升了0.2%;在图卷积前方添加CBAM模块后,精确度上升了0.3%;在时间卷积前方添加CBAM模块后,精确度上升了0.1%;添加Transformer模块并在时间卷积前方添加CBAM模块后,精确度上升了0.2%;添加Transformer模块在并图卷积前方添加CBAM模块后,精确度上升了0.4%;在图卷积前方添加CBAM模块并在时间卷积前方添加CBAM模块后,精确度上升了0.4%;在添加全部3个模块后,精确度上升了0.5%。使用UBnormal数据集进行训练时,在添加Transformer模块后,精确度上升了0.3%;在图卷积前方添加CBAM模块后,精确度上升了0.8%;在时间卷积前方添加CBAM模块后,精确度上升了0.5%;添加Transformer模块并在时间卷积前方添加CBAM模块后,精确度上升了1.0%;添加Transformer模块在并图卷积前方添加CBAM模块后,精确度上升了0.7%;在图卷积前方添加CBAM模块并在时间卷积前方添加CBAM模块后,精确度上升了1.0%;在添加全部3个模块后,精确度上升了1.2%。

由实验结果分析可知,Transformer模块能够增强模型提取到的全局人体动态骨架特征的表达能力,CBAMg模块有效提升了提取人体动态骨架特征的空间表达能力,CBAMt模块有效提升了提取人体动态骨架特征的时间表达能力。在添加相应模块后明星性能都有一定程度的提升,因此该消融实验可以证明单一模块与融合模块对于改进的 STG-NF 网络模型的有效性。

2.4 对比实验

在保证配置环境及初始训练参数一致的情况下,本文研究将改进的 STG-NF网络模型与其他网络模型进行实验来验证改进网络模型的有效性,结果如表 2 所示。

由实验结果分析可知,相较于Markovitz等^[7]使用时空图卷积自编码器进行特征编码,本文方法通过引入Transformer模块丰富了人体动态骨架特征的表达能力,在模型检测精确度方面提升了10.3%。相较于Zaheer等^[9]将合作学习应用到异常行为识别领域,本文方法通过将人体动态骨架序列映射到隐空间后计算其异常分数,将归一化流应用到异常行为识别领域,在模型检测精确度方面提升了6.8%。相较于Barbalau等^[16]和Wang等^[17]提出的自监督方法,本文研究通过引入多个注意力模块,提升所提取特征的丰富程度,在模型检测精确度方面分别提升了2.6%和2.2%。

可以看出,改进后的时空图归一化流网络模型在异常行为识别的精确度方面相较于之前的其他异常行为识别模型有所提升,证明了本文模型的先进性。

2.5 可视化展示

模型在ShanghaiTech数据集和UBnormal数据集上的可视化结果如图6~图8所示。其中折线图代表了视频每一帧的异常分数,红色部分代表真实值中标注为异常的视频帧。

如图6所示,在ShanghaiTech数据集中的人行道场景下,将自行车的出现定义为异常行为。在该视频序列的前半段未出现骑自行车的画面,异常分数较低;后半段出现骑自行车的画面,异常分数较高,预测结果与数据集标注值相符。如图7所示,在UBnormal数据集中的街道场景下,将跌倒定义为异常行为。在该视频序列前半段行人正常行走,异常分数较低;后半段中行人跌倒,异常分数较高,预测结果与数据集标注值相符。如图8所示,在UBnormal数据集中的路口场景下,打架倒定义为异常行为。在该视频序列前半段行人正常行走,异常分数较低;后半段中行人打闹,异常分数较高,预测结果与数据集标注值相符。

可视化结果展示模型能够给异常帧打出较高的分数,从而将正常帧与异常帧有效地分别出来。

3 结论

收起

提出了一种基于时空图归一化流改进的异常行为识别方法,经实验得出以下结论。

(1)在原有时空图卷积归一化流模型基础上,在空间卷积与时间卷积前分别引入CBAM模块,丰富了人体动态骨架特征的时空特征。

(2)在归一化流的分流衍射阶段加入Transformer模块,丰富了人体动态骨架的全局特征,有效提升了模型精度。

(3)最终模型在ShanghaiTech数据集上进行仿真验证取得精度为86.4%的识别结果,表明了该方法具有先进性。

基金

收起

中央高校基本科研业务费专项资金(2024JKF11)
中国人民公安大学安全防范工程双一流专项(2023SYL08)

参考文献

收起

文献

收起

参考文献引证文献

排序方式：

[1]

邵宝平, 常世新, 赵建东. 数据驱动下交通异常行为的双层识别模型研究[J]. 科学技术与工程, 2023, 23(14): 6257-6263.

Shao

Baoping

, Chang

Shixin

, Zhao

Jiandong

. Double layer identification model of traffic abnormal behavior driven by data[J]. Science Technology and Engineering, 2023, 23(14): 6257-6263.

[2]

王新文, 谢林柏, 彭力. 跌倒异常行为的双重残差网络识别方法[J]. 计算机科学与探索, 2020, 14(9): 1580-1589.

Wang

Xinwen

, Xie

Linbo

, Peng

. Double residual network recognition method for falling abnormal behavior[J]. Journal of Frontiers of Computer Science and Technology, 2020, 14(9): 1580-1589.

[3]

姬晓飞, 张东阳. 人体检测与异常行为识别联合算法[J]. 科学技术与工程, 2023, 23(8): 3370-3378.

Xiaofei

, Zhang

Dongyang

. A join algorithm of human detection and abnormal behavior recognition[J]. Science Technology and Engineering, 2023, 23(8): 3370-3378.

[4]

彭月平, 蒋镕圻, 徐蕾. 基于粗糙集的多类人群异常行为识别算法[J]. 科学技术与工程, 2021, 21(11): 4524-4533.

Peng

Yueping

, Jiang

Rongqi

, Xu

Lei

. An algorithm for identifying multi-class abnormal behavior of population based on rough set model[J]. Science Technology and Engineering, 2021, 21(11): 4524-4533.

[5]

Nady

, Atia

, Abutabl

. Real-time abnormal event detection in crowded scenes[J]. Journal of Theoretical and Applied Information Technology, 2018, 96(18): 6064-6074.

[6]

Cho

M A

, Kim

W J

, et al. Unsupervised video anomaly detection via normalizing flows with implicit latent features[J]. Pattern Recognition, 2022, 129: 108703.

[7]

Markovitz

, Sharir

, Friedman

, et al. Graph embedded pose clustering for anomaly detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE/CVF, 2020: 10539-10547.

[8]

Sato

, Hachiuma

, Sekii

. Prompt-guided zero-shot anomaly action recognition using pretrained deep skeleton features[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE/CVF, 2023: 6471-6480.

[9]

Zaheer

M Z

, Mahmood

, Khan

M H

, et al. Generative cooperative learning for unsupervised video anomaly detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE/CVF, 2022: 14744-14754.

[10]

Hirschorn

, Avidan

. Normalizing flows for human pose anomaly detection[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Vancouver: IEEE/CVF, 2023: 13545-13554.

[11]

Fang

H S

, Li

, Tang

, et al. Alphapose: whole-body regional multi-person pose estimation and tracking in real-time[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(6): 7157-7173.

[12]

Woo

, Park

, Lee

J Y

, et al. Cbam: convolutional block attention module[C]// Proceedings of the European Conference on Computer Vision (ECCV). Munich: ECCV, 2018: 3-19.

[13]

Vaswani

, Shazeer

, Parmar

, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017, 30: 1-11.

[14]

Dinh

, Krueger

, Bengio

. Nice: non-linear independent components estimation[J]. arxiv preprint arxiv: 1410. 8516, 2014.

[15]

Acsintoae

, Florescu

, Georgescu

M I

, et al. Ubnormal: new benchmark for supervised open-set video anomaly detection[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE/CVF, 2022: 20143-20153.

[16]

Barbalau

, Ionescu

R T

, Georgescu

M I

, et al. SSMTL++: revisiting self-supervised multi-task learning for video anomaly detection[J]. Computer Vision and Image Understanding, 2022, 45(6): 7157-7173.

[17]

Wang

, Wang

, Qin

, et al. Video anomaly detection by solving decoupled spatio-temporal jigsaw puzzles[C]// European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022: 494-511.

2025年第25卷第18期

PDF下载

185

引用本文

BibTeX

文章信息

doi: 10.12404/j.issn.1671-1815.2406479

接收时间：2024-08-29
首发时间：2025-12-17
出版时间：2025-06-28

补充材料

相关文章

文章信息

作者

出版历史

收稿日期：2024-08-29
修回日期：2025-04-01

基金

中央高校基本科研业务费专项资金(2024JKF11)

中国人民公安大学安全防范工程双一流专项(2023SYL08)

作者信息

中国人民公安大学信息网络安全学院, 北京 100038

通讯作者:

^* 王蓉(1971—),女,汉族,辽宁丹东人,博士,教授。研究方向:模式识别。E-mail:dbdxwangrong@163.com。

参考文献

分享链接

https://castjournals.cast.org.cn/joweb/kxjsygc/CN/10.12404/j.issn.1671-1815.2406479

分享至

全文二维码

扫描看全文

引用本文

BibTeX

本文的引用情况

2种不同金属材料的力学参数

科 Family	属数 Number of genus	种数 Number of species	占总种数比例 Percentage of total species (%)	属 Genus	种数 Number of species	占总种数比例 Percentage of total species (%)
鹅膏菌科Amanitaceae	2	11	5.26	鹅膏菌属 Amanita	10	4.78
小菇科 Mycenaceae	2	12	5.74	丝盖伞属 Inocybe	5	2.39
多孔菌科 Polyporaceae	8	14	6.70	蜡蘑属 Laccaria	5	2.39
红菇科 Russulaceae	3	23	11.00	小皮伞属 Marasmius	6	2.87
				小菇属 Mycena	11	5.26
				光柄菇属 Pluteus	5	2.39
				红菇属 Russula	17	8.13
				栓菌属 Trametes	5	2.39

关闭全屏

BibTeX
EndNote
RefWorks
TxT

使用方法	AUC
使用方法	ShanghaiTech	UBnormal
STG-NF	85.9	69.0
STG-NF+Trans	86.1	69.3
STG-NF+CBAMg	86.2	69.8
STG-NF+CBAMt	86.0	69.5
STG-NF+Trans+CBAMg	86.1	70.0
STG-NF+Trans+CBAMt	86.3	69.7
STG-NF+ CBAMg+CBAMt	86.3	70.0
STG-NF+Trans+ CBAMg+CBAMt	86.4	70.2