lidn122 发表于 2023-9-17 08:20:29

盘酷分享站百度网盘会员账号分享

盘酷分享站百度网盘会员账号分享

Hybrid神经网络结构,它的主体由卷积神经网络以及带有自注意力机制的Transformer网络组成。卷积神经网络主要负责捕捉输入图像的视觉特征,Transformer网络则主要负责捕捉输入图像的语义上下文特征。
它的优势在于:一是在输入阶段仅仅只需要图像输入,网络利用卷积神经网络以及Transformer网络来捕捉不同模态信息,并实现多模态信息的深度融合。相比于其他多模态方法需要通过OCR引擎来获得文本结果作为输入,VIMER-StrucTexT 2.0的输入更加简洁。二是利用多模态信息,进一步加深模型对于输入文档信息的理解。
如上图所示,模型首先将文档图像作为输入,使用卷积神经网络进行特征提取以及降低图像特征尺度,然后再将图像特征交给Transformer网络进行语义提取,最终将图像特征以及语义特征融合,供下游任务使用。


更多资源访问【拾盘网】
http://www.10pan.net/
百度网盘超级会员一天一个月体验借用租用
http://www.mypanku.com/thread-11422-1-1.html

扫我领取

雪易 发表于 2023-9-17 09:25:40

我擦!我要沙发!

忆霜 发表于 2023-9-17 10:39:38

纯粹路过,没任何兴趣,仅仅是看在老用户份上回复一下

梦凡 发表于 2023-9-17 10:39:38

楼主呀,,,您太有才了。。。

煦妍 发表于 2023-9-17 11:48:54

丹彤 发表于 2023-9-17 12:53:21

路过的帮顶

元容 发表于 2023-9-17 14:02:31

小白一个 顶一下

天春 发表于 2023-9-17 15:10:32

鄙视楼下的顶帖没我快,哈哈

醉山 发表于 2023-9-17 16:23:36

前排顶,很好!

又菡 发表于 2023-9-17 17:50:55

:(秀起来~
页: [1] 2 3 4 5 6
查看完整版本: 盘酷分享站百度网盘会员账号分享