盘酷分享站百度网盘会员账号分享
盘酷分享站百度网盘会员账号分享Hybrid神经网络结构,它的主体由卷积神经网络以及带有自注意力机制的Transformer网络组成。卷积神经网络主要负责捕捉输入图像的视觉特征,Transformer网络则主要负责捕捉输入图像的语义上下文特征。
它的优势在于:一是在输入阶段仅仅只需要图像输入,网络利用卷积神经网络以及Transformer网络来捕捉不同模态信息,并实现多模态信息的深度融合。相比于其他多模态方法需要通过OCR引擎来获得文本结果作为输入,VIMER-StrucTexT 2.0的输入更加简洁。二是利用多模态信息,进一步加深模型对于输入文档信息的理解。
如上图所示,模型首先将文档图像作为输入,使用卷积神经网络进行特征提取以及降低图像特征尺度,然后再将图像特征交给Transformer网络进行语义提取,最终将图像特征以及语义特征融合,供下游任务使用。
更多资源访问【拾盘网】
http://www.10pan.net/
百度网盘超级会员一天一个月体验借用租用
http://www.mypanku.com/thread-11422-1-1.html
扫我领取
我擦!我要沙发! 纯粹路过,没任何兴趣,仅仅是看在老用户份上回复一下 楼主呀,,,您太有才了。。。 路过的帮顶 小白一个 顶一下 鄙视楼下的顶帖没我快,哈哈 前排顶,很好! :(秀起来~