一种视频显著图提取方法_专利商城

技术领域

本发明涉及一种视频信号的处理方法，尤其是涉及一种视频显著图提取方法。

背景技术

在人类视觉接收与信息处理中，由于大脑资源有限以及外界环境信息重要性区别，因此在处理过程中人脑对外界环境信息并不是一视同仁的，而是表现出选择特征。人们在观看图像或者视频片段时注意力并非均匀分布到图像的每个区域，而是对某些显著区域关注度更高。如何将视频中视觉注意度高的显著区域检测并提取出来是计算机视觉以及基于内容的视频检索领域的一个重要的研究内容。

与图像显著图提取方法相比，视频显著图需要提取反映视频运动的语义信息。目前，通常采用视频分割、光流法、运动估计等方法来提取视频显著区域，然而这些方法并不能很好地应用于压缩域的视频，这是因为：一方面，只通过运动矢量或帧差法得到的运动信息只反映运动趋势，并不能很好地反映运动显著语义特征；另一方面，因受压缩域的计算能力局限，而不能进行复杂的特征提取操作。因此，如何从压缩后的码流中提取能够反映运动显著语义特征的重要信息，是视频显著图提取中需要研究解决的问题。

发明内容

本发明所要解决的技术问题是提供一种符合压缩域显著语义特征，且提取精度高的视频显著图提取方法。

本发明解决上述技术问题所采用的技术方案为：一种视频显著图提取方法，其特征在于包括以下步骤：

①假定待处理的原始二维视频中包含的视频帧的总帧数为T，且假定待处理的原始二维视频中的视频帧的宽和高对应为W和H；采用H.264视频编码标准对原始二维视频进行编码，得到原始二维视频的编码码流；然后服务端通过网络将原始二维视频的编码码流传输给用户端；

②用户端对服务端发送来的原始二维视频的编码码流进行解码，得到原始二维视频对应的解码视频以及解码视频中的每帧解码帧中的每个尺寸大小为8×8的子块的运动矢量、解码视频中的每帧解码帧中的每个尺寸大小为8×8的子块中的每个像素点的DCT系数，将原始二维视频对应的解码视频中的第t帧解码帧记为将中的第h个子块的运动矢量记为MV_h,t，将中的第h个子块中坐标位置为(x₁,y₁)的像素点的DCT系数记为DCT_h,t(x₁,y₁)，其中，1≤t≤T，1≤x≤W，1≤y≤H，表示中坐标位置为(x,y)的像素点的像素值，

③根据原始二维视频对应的解码视频中的每帧解码帧中的每个子块中的所有像素点的DCT系数，获取原始二维视频对应的解码视频中的每帧解码帧中的不同子块之间的纹理相似性；然后根据原始二维视频对应的解码视频中的每帧解码帧中的不同子块之间的纹理相似性，获取原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理对比度和纹理复杂度；再根据原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理对比度和纹理复杂度，获取原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理显著值，进而得到原始二维视频对应的解码视频中的每帧解码帧的纹理显著图，将的纹理显著图记为{S_t,texture(x,y)}，其中，S_t,texture(x,y)表示{S_t,texture(x,y)}中坐标位置为(x,y)的像素点的像素值；

④根据原始二维视频对应的解码视频中的每帧解码帧中的每个子块的运动矢量，获取原始二维视频对应的解码视频中的每帧解码帧的运动矢量图；然后通过计算原始二维视频对应的解码视频中的每帧解码帧的全局运动参数向量，获取原始二维视频对应的解码视频中的每帧解码帧的全局运动矢量图；再根据原始二维视频对应的解码视频中的每帧解码帧的运动矢量图和全局运动矢量图，获取原始二维视频对应的解码视频中的每帧解码帧的前景运动矢量图；最后根据原始二维视频对应的解码视频中的每帧解码帧的前景运动矢量图，获取原始二维视频对应的解码视频中的每帧解码帧的运动显著图，将的运动显著图记为{S_t,motion(x,y)}，其中，S_t,motion(x,y)表示{S_t,motion(x,y)}中坐标位置为(x,y)的像素点的像素值；

⑤根据原始二维视频对应的解码视频中的每帧解码帧的纹理显著图，获取原始二维视频对应的解码视频中的每帧解码帧的纹理不确定性图；并根据原始二维视频对应的解码视频中的每帧解码帧的运动显著图，获取原始二维视频对应的解码视频中的每帧解码帧的运动不确定性图；然后根据原始二维视频对应的解码视频中的每帧解码帧的纹理不确定性图和运动不确定性图，对原始二维视频对应的解码视频中的每帧解码帧的纹理显著图和运动显著图进行融合，得到原始二维视频对应的解码视频中的每帧解码帧的视频显著图，将的视频显著图记为{S_t,video(x,y)}，将{S_t,video(x,y)}中坐标位置为(x,y)的像素点的像素值记为S_t,video(x,y)， $S_{t, video} (x, y) = \frac{S_{t, texture} (x, y) \times U_{t} (x, y) + S_{t, motion} (x, y) \times V_{t} (x, y)}{U_{t} (x, y) + V_{t} (x, y)},$ 其中，U_t(x,y)表示的纹理不确定性图{U_t(x,y)}中坐标位置为(x,y)的像素点的像素值，V_t(x,y)表示的运动不确定性图{V_t(x,y)}中坐标位置为(x,y)的像素点的像素值。

所述的步骤③的具体过程为：

③-1、计算原始二维视频对应的解码视频中的每帧解码帧中的不同子块之间的纹理相似性，对于将中的第p个子块与第q个子块之间的纹理相似性记为 $T (B_{p}, B_{q}), T (B_{p}, B_{q}) = \frac{\sqrt{Σ_{i = 1}^{N} {({AC}_{i} (B_{p}) - {AC}_{i} (B_{q}))}^{2}}}{Σ_{i = 1}^{N} ({AC}_{i} (B_{p}) + {AC}_{i} (B_{q}))},$ 其中， $1 \leq p \leq \frac{W}{8} \times \frac{H}{8},$ p≠q，AC_i(B_p)表示中的第p个子块中的所有像素点的DCT系数经Z字形扫描后得到的第i个交流分量，AC_i(B_q)为中的第q个子块中的所有像素点的DCT系数经Z字形扫描后得到的第i个交流分量，1≤N≤N'，N'表示中的每个子块中的所有像素点的DCT系数经Z字形扫描后得到的交流分量的总个数；

③-2、计算原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理对比度，对于将中的第h个子块的纹理对比度记为F_h,t， $F_{h, t} = Σ_{q = 1}^{\frac{W}{8} \times \frac{H}{8}} (T (B_{h}, B_{q}) \times \exp (\frac{- d {(B_{h}, B_{q})}^{2}}{{σ_{w}}^{2}})),$ 其中，h≠q，T(B_h,B_q)表示中的第h个子块与第q个子块之间的纹理相似性，exp()表示以自然基数e为底的指数函数，d(B_h,B_q)表示中的第h个子块与第q个子块之间的空间距离，表示中的第h个子块中的中心像素点的坐标位置，表示中的第q个子块中的中心像素点的坐标位置，符号“||||”为求欧式距离符号，σ_w表示高斯函数的标准差；

③-3、计算原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理复杂度，对于将中的第h个子块的纹理复杂度记为C_h,t， $C_{h, t} = \frac{Σ_{q = 1}^{\frac{W}{8} \times \frac{H}{8}} Σ_{p = 1}^{\frac{W}{8} \times \frac{H}{8}} (ω_{B_{h}} (B_{p}, B_{q}) \times e (B_{p}, B_{q}))}{Σ_{q = 1}^{\frac{W}{8} \times \frac{H}{8}} Σ_{p = 1}^{\frac{W}{8} \times \frac{H}{8}} ω_{B_{h}} (B_{p}, B_{q})},$ 其中，h≠p≠q， $ω_{B_{h}} (B_{p}, B_{q}) = \exp (- \frac{{d (d (B_{p}, B_{q}))}^{2}}{{σ_{w}}^{2}}) \times \exp (- \frac{{(d (B_{h}, B_{p}))}^{2}}{{σ_{w}}^{2}}) \times \exp (\frac{{(d (B_{h}, B_{q}))}^{2}}{{σ_{w}}^{2}}),$ $e (B_{p}, B_{q}) = \exp (- \frac{{(T (B_{p}, B_{q}))}^{2}}{{σ_{e}}^{2}}),$ d(B_p,B_q)表示中的第p个子块与第q个子块之间的空间距离，d(B_h,B_p)表示中的第h个子块与第p个子块之间的空间距离，表示中的第p个子块中的中心像素点的坐标位置，σ_e表示高斯函数的标准差；

③-4、计算原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理显著值，对于将中的第h个子块的纹理显著值记为ST_h,t，ST_h,t＝F_h,t×C_h,t；

③-5、将原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理显著值作为对应子块中的每个像素点的显著值，从而得到原始二维视频对应的解码视频中的每帧解码帧的纹理显著图；对于将中的每个子块的纹理显著值作为对应子块中的每个像素点的显著值，得到的纹理显著图，记为{S_t,texture(x,y)}，其中，S_t,texture(x,y)表示{S_t,texture(x,y)}中坐标位置为(x,y)的像素点的像素值。

所述的步骤④的具体过程为：

④-1、将原始二维视频对应的解码视频中的每帧解码帧中的每个子块的运动矢量作为对应子块中的每个像素点的运动矢量，从而得到原始二维视频对应的解码视频中的每帧解码帧的运动矢量图；对于将中的每个子块的运动矢量作为对应子块中的每个像素点的运动矢量，得到的运动矢量图，记为{MV_t(x,y)}，其中，MV_t(x,y)表示{MV_t(x,y)}中坐标位置为(x,y)的像素点的运动矢量；

④-2、计算原始二维视频对应的解码视频中的每帧解码帧的全局运动参数向量，对于将的全局运动参数向量记为m_t'， ${m_{t}}^{'} = \underset{m_{t} &Element; Ω}{\arg \min} (Σ_{y = 1}^{H} Σ_{x = 1}^{W} {({\tilde{I}}_{t} (x, y) - {\tilde{I}}_{t - 1} (x, y; m_{t}))}^{2}),$ 其中，m_t表示可选的全局运动参数向量，m_t＝[m₀,m₁,m₂,m₃,m₄,m₅,m₆,m₇]，m₀,m₁,m₂,m₃,m₄,m₅,m₆,m₇对应表示m_t中的第1个、第2个、第3个、第4个、第5个、第6个、第7个、第8个全局运动参数，m_t∈Ω，Ω表示全局运动参数向量集合， $\underset{m_{t} &Element; Ω}{\arg \min} (Σ_{y = 1}^{H} Σ_{x = 1}^{W} {({\tilde{I}}_{t} (x, y) - {\tilde{I}}_{t - 1} (x, y; m_{t}))}^{2})$ 表示取使得的值最小的m_t，采用线性回归方法求解 $\underset{m_{t} &Element; Ω}{\arg \min} (Σ_{y = 1}^{H} Σ_{x = 1}^{W} {({\tilde{I}}_{t} (x, y) - {\tilde{I}}_{t - 1} (x, y; m_{t}))}^{2})$ m_t'＝[m₀',m₁',m₂',m₃',m₄',m₅',m₆',m₇']，m₀',m₁',m₂',m₃',m₄',m₅',m₆',m₇'对应表示m_t'中的第1个、第2个、第3个、第4个、第5个、第6个、第7个、第8个全局运动参数，表示原始二维视频对应的解码视频中的第t-1帧解码帧中坐标位置为(x',y')的像素点的像素值， $x^{'} = \frac{m_{0} \times x + m_{1} \times y + m_{2}}{m_{6} \times x + m_{7} \times m_{7} \times y + 1}, y^{'} = \frac{m_{3} \times x + m_{4} \times y + m_{5}}{m_{6} \times x + m_{7} \times y + 1};$

④-3、根据原始二维视频对应的解码视频中的每帧解码帧的全局运动参数向量，获取原始二维视频对应的解码视频中的每帧解码帧的全局运动矢量图；对于根据m_t'，获取的全局运动矢量图，记为{GMV_t(x,y)}，将{GMV_t(x,y)}中坐标位置为(x,y)的像素点的全局运动矢量记为GMV_t(x,y)， ${GMV}_{t} (x, y) = [{GMV}_{t}^{x} (x, y), {GMV}_{t}^{y} (x, y)],$ 其中，符号“[]”为矢量表示符号，表示GMV_t(x,y)的水平分量，表示GMV_t(x,y)的垂直分量， ${GMV}_{t}^{y} (x, y) = y^{''} - y, x^{''} = \frac{{m_{0}}^{'} \times x + {m_{1}}^{'} \times y {m_{2}}^{'}}{{m_{6}}^{'} \times x + {m_{7}}^{'} \times y + 1}, y^{''} = \frac{{m_{3}}^{'} \times x + {m_{4}}^{'} \times y + {m_{5}}^{'}}{{m_{6}}^{'} \times x + {m_{7}}^{'} \times y + 1};$

④-4、根据原始二维视频对应的解码视频中的每帧解码帧的运动矢量图和全局运动矢量图，获取原始二维视频对应的解码视频中的每帧解码帧的前景运动矢量图；对于根据{MV_t(x,y)}和{GMV_t(x,y)}，获取的前景运动矢量图，记为{FMV_t(x,y)}，将{FMV_t(x,y)}中坐标位置为(x,y)的像素点的前景运动矢量记为FMV_t(x,y)，FMV_t(x,y)＝GMV_t(x,y)-MV_t(x,y)，其中， ${FMV}_{t} (x, y) = [{FMV}_{t}^{x} (x, y), {FMV}_{t}^{y} (x, y)], {FMV}_{t}^{x} (x, y)$ 表示FMV_t(x,y)的水平分量，表示FMV_t(x,y)的垂直分量；

④-5、计算原始二维视频对应的解码视频中的每帧解码帧的运动显著图，对于将的运动显著图记为{S_t,motion(x,y)}，将{S_t,motion(x,y)}中坐标位置为(x,y)的像素点的像素值记为S_t,motion(x,y)， $S_{t, motion} (x, y) = \sqrt{{({FMV}_{t}^{x} (x, y))}^{2} + {({FMV}_{t}^{y} (x, y))}^{2}} .$

所述的步骤⑤的具体过程为：

⑤-1、根据原始二维视频对应的解码视频中的每帧解码帧的纹理显著图，计算原始二维视频对应的解码视频中的每帧解码帧的纹理中心坐标位置；对于根据{S_t，texture(x，y)}获得的纹理中心坐标位置，记为(x_c,y_c)， $x_{c} = \frac{1}{W \times H} Σ_{y = 1}^{H} Σ_{x = 1}^{W} ({x \times S}_{t, texture} (x, y)), y_{c} = \frac{1}{W \times H} Σ_{y = 1}^{H} Σ_{x = 1}^{W} ({y \times S}_{t, texture} (x, y));$

⑤-2、根据原始二维视频对应的解码视频中的每帧解码帧的纹理中心坐标位置，计算原始二维视频对应的解码视频中的每帧解码帧的纹理不确定性图；对于根据(x_c,y_c)，获得的纹理不确定性图，记为{U_t(x,y)}，将{U_t(x,y)}中坐标位置为(x,y)的像素点的像素值记为U_t(x,y)，U_t(x,y)＝f(p_c(x,y))，其中，f()为函数表示形式，f(p_c(x,y))＝-p_c(x,y)×log₂(p_c(x,y))-(1-p_c(x,y))×log₂(1-p_c(x,y))，log₂()表示以2为底的对数函数，d_c(x,y)表示中坐标位置为(x,y)的像素点与中坐标位置为(x_c,y_c)的像素点之间的空间距离， $d_{c} (x, y) = \sqrt{{({x - x}_{c})}^{2} + {({y - y}_{c})}^{2}},$ α₁、β₁和γ₁为模型参数；

⑤-3、根据原始二维视频对应的解码视频中的每帧解码帧的运动显著图，计算原始二维视频对应的解码视频中的每帧解码帧的运动中心坐标位置；对于根据{S_t,motion(x,y)}，获得的运动中心坐标位置，记为(x_m,y_m)， $x_{m} = \frac{1}{W \times H} Σ_{y = 1}^{H} Σ_{x = 1}^{W} ({x S}_{t, motion} (x, y)), y_{m} = \frac{1}{W \times H} Σ_{y = 1}^{H} Σ_{x = 1}^{W} (y \times S_{t, motion} (x, y));$

⑤-4、根据原始二维视频对应的解码视频中的每帧解码帧的运动中心坐标位置，计算原始二维视频对应的解码视频中的每帧解码帧的运动不确定性图；对于根据(x_m,y_m)，获得的运动不确定性图，记为{V_t(x,y)}，将{V_t(x,y)}中坐标位置为(x,y)的像素点的像素值记为V_t(x,y)，V_t(x,y)＝f(p_m(x,y))，其中，f()为函数表示形式，f(p_m(x,y))＝-p_m(x,y)×log₂(p_m(x,y))-(1-p_m(x,y))×log₂(1-p_m(x,y))， $p_{m} (x, y) = α_{1} \times \exp (- {(\frac{d_{m} (x, y)}{β_{1}})}^{γ_{1}}),$ d_m(x,y)表示中坐标位置为(x,y)的像素点与中坐标位置为(x_m,y_m)的像素点之间的空间距离， $d_{m} (x, y) = \sqrt{{({x - x}_{m})}^{2} + {(y - y_{m})}^{2}},$ α₁、β₁和γ₁为模型参数；

⑤-5、根据原始二维视频对应的解码视频中的每帧解码帧的纹理不确定性图和运动不确定性图，对原始二维视频对应的解码视频中的每帧解码帧的纹理显著图和运动显著图进行融合，得到原始二维视频对应的解码视频中的每帧解码帧的视频显著图；对于根据{U_t(x,y)}和{V_t(x,y)}对{S_t,texture(x,y)}和{S_t,motion(x,y)}进行融合，得到的视频显著图，记为{S_t,video(x,y)}，将{S_t,video(x,y)}中坐标位置为(x,y)的像素点的像素值记为 $S_{t, video} (x, y) S_{t, video} (x, y) = \frac{S_{t, texture} (x, y) \times U_{t} (x, y) + S_{t, motion} (x, y) \times V_{t} (x, y)}{U_{t} (x, y) + V_{t} (x, y)} .$

与现有技术相比，本发明的优点在于：

1)本发明方法通过从编码码率中获取的解码视频、解码视频中的每帧解码帧中的每个尺寸大小为8×8的子块的运动矢量和解码视频中的每帧解码帧中的每个尺寸大小为8×8的子块中的每个像素点的DCT系数，获取解码视频中的每帧解码帧的纹理显著图和运动显著图，获得的纹理显著图和运动显著图具有较强的稳定性，并使最终得到的视频显著图能够较好地反映视频的静态和动态的显著变化情况，符合压缩域视频显著语义的特征。

2)本发明方法通过分别估计解码视频中的每帧解码帧的纹理不确定性图和运动不确定性图，并将每帧解码帧的纹理不确定性图和运动不确定性图作为对每帧解码帧的纹理显著图和运动显著图进行结合的依据，得到最终的视频显著图，有效地提高了显著性检测的预测准确性。

附图说明

图1为本发明方法的总体实现框图；

图2a为“Beverly01”视频序列的第340帧解码帧；

图2b为“Beverly01”视频序列的第340帧解码帧的纹理显著图；

图2c为“Beverly01”视频序列的第340帧解码帧的运动显著图；

图2d为“Beverly01”视频序列的第340帧解码帧的视频显著图；

图3a为“Beverly03”视频序列的第340帧解码帧；

图3b为“Beverly03”视频序列的第340帧解码帧的纹理显著图；

图3c为“Beverly03”视频序列的第340帧解码帧的运动显著图；

图3d为“Beverly03”视频序列的第340帧解码帧的视频显著图；

图4a为“Beverly05”视频序列的第340帧解码帧；

图4b为“Beverly05”视频序列的第340帧解码帧的纹理显著图；

图4c为“Beverly05”视频序列的第340帧解码帧的运动显著图；

图4d为“Beverly05”视频序列的第340帧解码帧的视频显著图；

图5a为“Beverly06”视频序列的第340帧解码帧；

图5b为“Beverly06”视频序列的第340帧解码帧的纹理显著图；

图5c为“Beverly06”视频序列的第340帧解码帧的运动显著图；

图5d为“Beverly06”视频序列的第340帧解码帧的视频显著图；

图6a为“Beverly07”视频序列的第230帧解码帧；

图6b为“Beverly07”视频序列的第230帧解码帧的纹理显著图；

图6c为“Beverly07”视频序列的第230帧解码帧的运动显著图；

图6d为“Beverly07”视频序列的第230帧解码帧的视频显著图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提出的一种视频显著图提取方法，其总体实现框图如图1所示，其包括以下步骤：

①假定待处理的原始二维视频中包含的视频帧的总帧数为T，且假定待处理的原始二维视频中的视频帧的宽和高对应为W和H，将原始二维视频中的第t帧视频帧记为{I_t(x,y)}，将{I_t(x,y)}中坐标位置为(x,y)的像素点的像素值记为I_t(x,y)，其中，1≤t≤T，T>1，T的具体值根据处理的二维视频序列而定，1≤x≤W，1≤y≤H；采用现有的H.264视频编码标准对原始二维视频进行编码，得到原始二维视频的编码码流；然后服务端通过网络将原始二维视频的编码码流传输给用户端。

③由于图像块的DCT系数反映了图像块的能量信息，其中直流分量(DC系数)包含图像块的平均能量，而交流分量(AC系数)包含图像块的高频信息，因此本发明根据原始二维视频对应的解码视频中的每帧解码帧中的每个子块中的所有像素点的DCT系数，获取原始二维视频对应的解码视频中的每帧解码帧中的不同子块之间的纹理相似性；然后根据原始二维视频对应的解码视频中的每帧解码帧中的不同子块之间的纹理相似性，获取原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理对比度和纹理复杂度；再根据原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理对比度和纹理复杂度，获取原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理显著值，进而得到原始二维视频对应的解码视频中的每帧解码帧的纹理显著图，将的纹理显著图记为{S_t,texture(x,y)}，其中，S_t,texture(x,y)表示{S_t,texture(x,y)}中坐标位置为(x,y)的像素点的像素值。

在此具体实施例中，步骤③的具体过程为：

③-2、计算原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理对比度，对于将中的第h个子块的纹理对比度记为F_h,t， $F_{h, t} = Σ_{q = 1}^{\frac{W}{8} \times \frac{H}{8}} (T (B_{h}, B_{q}) \times \exp (\frac{- d {(B_{h}, B_{q})}^{2}}{{σ_{w}}^{2}})),$ 其中，h≠q，T(B_h,B_q)表示中的第h个子块与第q个子块之间的纹理相似性，exp()表示以自然基数e为底的指数函数，e＝2.71828183…，d(B_h,B_q)表示中的第h个子块与第q个子块之间的空间距离，表示中的第h个子块中的中心像素点的坐标位置，表示中的第q个子块中的中心像素点的坐标位置，符号“||||”为求欧式距离符号，σ_w表示高斯函数的标准差，在本实施例中取σ_w＝0.4。

③-4、计算原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理显著值，对于将中的第h个子块的纹理显著值记为ST_h,t，ST_h,t＝F_h,t×C_h,t。

③-5、将原始二维视频对应的解码视频中的每帧解码帧中的每个子块的纹理显著值作为对应子块中的每个像素点的显著值，从而得到原始二维视频对应的解码视频中的每帧解码帧的纹理显著图；对于将中的每个子块的纹理显著值作为对应子块中的每个像素点的显著值，即对于中的第h个子块，将该子块的纹理显著值作为该子块中的每个像素点的显著值，得到的纹理显著图，记为{S_t,texture(x,y)}，其中，S_t,texture(x,y)表示{S_t,texture(x,y)}中坐标位置为(x,y)的像素点的像素值。

在此具体实施例中，步骤④的具体过程为：

④-1、将原始二维视频对应的解码视频中的每帧解码帧中的每个子块的运动矢量作为对应子块中的每个像素点的运动矢量，从而得到原始二维视频对应的解码视频中的每帧解码帧的运动矢量图；对于将中的每个子块的运动矢量作为对应子块中的每个像素点的运动矢量，即对于中的第h个子块，将该子块的运动矢量作为该子块中的每个像素点的运动矢量，得到的运动矢量图，记为{MV_t(x,y)}，其中，MV_t(x,y)表示{MV_t(x,y)}中坐标位置为(x,y)的像素点的运动矢量。

④-2、由于视频中包含相机和背景运动及错误的运动矢量估计，导致估计的运动矢量并不能很好地反映对象运动，因此本发明计算原始二维视频对应的解码视频中的每帧解码帧的全局运动参数向量，对于将的全局运动参数向量记为m_t'， ${m_{t}}^{'} = \underset{m_{t} &Element; Ω}{\arg \min} (Σ_{y = 1}^{H} Σ_{x = 1}^{W} {({\tilde{I}}_{t} (x, y) - {\tilde{I}}_{t - 1} (x, y; m_{t}))}^{2}),$ 其中，m_t表示可选的全局运动参数向量，m_t＝[m₀,m₁,m₂,m₃,m₄,m₅,m₆,m₇]，m₀,m₁,m₂,m₃,m₄,m₅,m₆,m₇对应表示m_t中的第1个、第2个、第3个、第4个、第5个、第6个、第7个、第8个全局运动参数，m_t∈Ω，Ω表示全局运动参数向量集合， $\underset{m_{t} &Element; Ω}{\arg \min} (Σ_{y = 1}^{H} Σ_{x = 1}^{W} {({\tilde{I}}_{t} (x, y) - {\tilde{I}}_{t - 1} (x, y; m_{t}))}^{2})$ 表示取使得的值最小的m_t，采用现有的线性回归方法求解 $\underset{m_{t} &Element; Ω}{\arg \min} (Σ_{y = 1}^{H} Σ_{x = 1}^{W} {({\tilde{I}}_{t} (x, y) - {\tilde{I}}_{t - 1} (x, y; m_{t}))}^{2})$ m_t'＝[m₀',m₁',m₂',m₃',m₄',m₅',m₆',m₇']，m₀',m₁',m₂',m₃',m₄',m₅',m₆',m₇'对应表示m_t'中的第1个、第2个、第3个、第4个、第5个、第6个、第7个、第8个全局运动参数，表示原始二维视频对应的解码视频中的第t-1帧解码帧中坐标位置为(x',y')的像素点的像素值， $x^{'} = \frac{m_{0} \times x + m_{1} \times y + m_{2}}{m_{6} \times x + m_{7} \times m_{7} \times y + 1}, y^{'} = \frac{m_{3} \times x + m_{4} \times y + m_{5}}{m_{6} \times x + m_{7} \times y + 1} .$

④-3、根据原始二维视频对应的解码视频中的每帧解码帧的全局运动参数向量，获取原始二维视频对应的解码视频中的每帧解码帧的全局运动矢量图；对于根据m_t'，获取的全局运动矢量图，记为{GMV_t(x,y)}，将{GMV_t(x,y)}中坐标位置为(x,y)的像素点的全局运动矢量记为GMV_t(x,y)， ${GMV}_{t} (x, y) = [{GMV}_{t}^{x} (x, y), {GMV}_{t}^{y} (x, y)],$ 其中，符号“[]”为矢量表示符号，表示GMV_t(x,y)的水平分量， ${GMV}_{t}^{x} (x, y) = x^{''} - x, {GMV}_{t}^{y} (x, y)$ 表示GMV_t(x,y)的垂直分量， ${GMV}_{t}^{y} (x, y) = y^{''} - y, x^{''} = \frac{{m_{0}}^{'} \times x + {m_{1}}^{'} \times y {m_{2}}^{'}}{{m_{6}}^{'} \times x + {m_{7}}^{'} \times y + 1}, y^{''} = \frac{{m_{3}}^{'} \times x + {m_{4}}^{'} \times y + {m_{5}}^{'}}{{m_{6}}^{'} \times x + {m_{7}}^{'} \times y + 1} .$

在此具体实施例中，步骤⑤的具体过程为：

⑤-1、根据原始二维视频对应的解码视频中的每帧解码帧的纹理显著图，计算原始二维视频对应的解码视频中的每帧解码帧的纹理中心坐标位置；对于根据{S_t,texture(x,y)}，获得的纹理中心坐标位置，记为(x_c,y_c)， $x_{c} = \frac{1}{W \times H} Σ_{y = 1}^{H} Σ_{x = 1}^{W} ({x \times S}_{t, texture} (x, y)), y_{c} = \frac{1}{W \times H} Σ_{y = 1}^{H} Σ_{x = 1}^{W} ({y \times S}_{t, texture} (x, y)) .$

⑤-2、根据原始二维视频对应的解码视频中的每帧解码帧的纹理中心坐标位置，计算原始二维视频对应的解码视频中的每帧解码帧的纹理不确定性图；对于根据(x_c,y_c)，获得的纹理不确定性图，记为{U_t(x,y)}，将{U_t(x,y)}中坐标位置为(x,y)的像素点的像素值记为U_t(x,y)，U_t(x,y)＝f(p_c(x,y))，其中，f()为函数表示形式，f(p_c(x,y))＝-p_c(x,y)×log₂(p_c(x,y))-(1-p_c(x,y))×log₂(1-p_c(x,y))，log₂()表示以2为底的对数函数，d_c(x,y)表示中坐标位置为(x,y)的像素点与中坐标位置为(x_c,y_c)的像素点之间的空间距离，α₁、β₁和γ₁为模型参数，在本实施例中取α₁＝0.9694，β₁＝93.30，γ₁＝2.8844。

⑤-4、根据原始二维视频对应的解码视频中的每帧解码帧的运动中心坐标位置，计算原始二维视频对应的解码视频中的每帧解码帧的运动不确定性图；对于根据(x_m,y_m)，获得的运动不确定性图，记为{V_t(x,y)}，将{V_t(x,y)}中坐标位置为(x,y)的像素点的像素值记为V_t(x,y)，V_t(x,y)＝f(p_m(x,y))，其中，f()为函数表示形式，f(p_m(x,y))＝-p_m(x,y)×log₂(p_m(x,y))-(1-p_m(x,y))×log₂(1-p_m(x,y))， $p_{m} (x, y) = α_{1} \times \exp (- {(\frac{d_{m} (x, y)}{β_{1}})}^{γ_{1}}),$ d_m(x,y)表示中坐标位置为(x,y)的像素点与中坐标位置为(x_m,y_m)的像素点之间的空间距离，α₁、β₁和γ₁为模型参数，在本实施例中取α₁＝0.9694，β₁＝93.30，γ₁＝2.8844。

⑤-5、由于检测的运动对象在时间和空间上表现出不同程度的不确定性，对纹理显著图和运动显著图进行融合也需要充分考虑这些不确定性，因此本发明根据原始二维视频对应的解码视频中的每帧解码帧的纹理不确定性图和运动不确定性图，对原始二维视频对应的解码视频中的每帧解码帧的纹理显著图和运动显著图进行融合，得到原始二维视频对应的解码视频中的每帧解码帧的视频显著图；对于根据{U_t(x,y)}和{V_t(x,y)}对{S_t,texture(x,y)}和{S_t,motion(x,y)}进行融合，得到的视频显著图，记为{S_t,video(x,y)}，将{S_t,video(x,y)}中坐标位置为(x,y)的像素点的像素值记为S_t,video(x,y)， $S_{t, video} = (x, y) = \frac{S_{t, texture} (x, y) \times U_{t} (x, y) + S_{t, motion} (x, y) \times V_{t} (x, y)}{U_{t} (x, y) + V_{t} (x, y)} .$

以下就利用本发明方法对比利时蒙斯理工学院TCTS实验室提供的ASCMN数据库中的“Beverly01”、“Beverly03”、“Beverly05”、“Beverly06”和“Beverly07”五个视频序列的视频显著图进行提取。图2a给出了“Beverly01”视频序列的第340帧解码帧，图2b给出了“Beverly01”视频序列的第340帧解码帧的纹理显著图，图2c给出了“Beverly01”视频序列的第340帧解码帧的运动显著图，图2d给出了“Beverly01”视频序列的第340帧解码帧的视频显著图；图3a给出了“Beverly03”视频序列的第340帧解码帧，图3b给出了“Beverly03”视频序列的第340帧解码帧的纹理显著图，图3c给出了“Beverly03”视频序列的第340帧解码帧的运动显著图，图3d给出了“Beverly03”视频序列的第340帧解码帧的视频显著图；图4a给出了“Beverly05”视频序列的第340帧解码帧，图4b给出了“Beverly05”视频序列的第340帧解码帧的纹理显著图，图4c给出了“Beverly05”视频序列的第340帧解码帧的运动显著图，图4d给出了“Beverly05”视频序列的第340帧解码帧的视频显著图；图5a给出了“Beverly06”视频序列的第340帧解码帧，图5b给出了“Beverly06”视频序列的第340帧解码帧的纹理显著图，图5c给出了“Beverly06”视频序列的第340帧解码帧的运动显著图，图5d给出了“Beverly06”视频序列的第340帧解码帧的视频显著图；图6a给出了“Beverly07”视频序列的第230帧解码帧，图6b给出了“Beverly07”视频序列的230帧解码帧的纹理显著图，图6c给出了“Beverly07”视频序列的第230帧解码帧的运动显著图，图6d给出了“Beverly07”视频序列的第230帧解码帧的视频显著图。从图2a至图6d可以看出，采用本发明方法得到的视频显著图由于考虑了纹理显著图和运动显著图，因此能够较好地反映视频的静态和动态的显著变化情况，符合压缩域视频显著语义的特征。

专利转让内容

一种视频显著图提取方法

详细介绍

专 / 利 / 交 / 易 / 流 / 程

安 / 全 / 保 / 障

专 / 利 / 交 / 易 / 常 / 见 / 问 / 题

1、在赋翼网没有找到自己需要的专利怎么办?

2、在赋翼网购买专利安全吗？

3、购买专利是一次性收费吗？还有其他的费用吗?

4、购买后多久能收到专利证书？

5、购买后变更失败怎么办？

—— 购买专利 ——

推荐专利更多

倒车雷达

一种用于种植业的集雨式药物喷洒装置

一种使用方便的园林浇水推车

一种使用稳定的园林输液装置

一种可调整高低的景观台设备

一种使用方便的园林铲