lidn122 发表于 2023-9-22 10:45:16

盘酷分享站百度网盘会员不限速会员账号免费领取

盘酷分享站百度网盘会员不限速会员账号免费领取

这里主要介绍下兼顾视觉特征表示和文本语义建模的预训练方案。
针对目前预训练方案存在的合成数据和下游任务差异大,以及忽略文本语义建模的问题,百度创造性地提出了图像文本多模态,自监督和强监督结合的预训练范式。通过使用Mask Image Modeling (MIM) 在大量的真实数据上面预训练encoder,以使encoder具备提取较好的视觉表征的能力。
同时,使用Mask Vision Language Modeling (MVLM) 的方式在合成数据上面预训练decoder,使decoder能够建模文本语义。此外,为了避免合成数据对encoder产生干扰,在训练decoder的时候,通过固定住encoder的参数,即保留了encoder在真实数据上面提取良好视觉表征的能力,同时也兼顾了语义的建模。
基于VIMER-MaskOCR底座大模型,百度网盘在各种类型的文字识别上效果提升显著,一起来看看效果:
超强大脑:复杂排版 一键还原
更多资源访问【拾盘网】
http://www.10pan.net/
百度网盘超级会员一天一个月体验借用租用
http://www.mypanku.com/thread-11422-1-1.html

扫我领取

惜蕊 发表于 2023-9-22 11:47:19

路过 帮顶 嘿嘿

灵寒 发表于 2023-9-22 13:04:07

为毛老子总也抢不到沙发?!!

卉平 发表于 2023-9-22 14:15:04

松初 发表于 2023-9-22 15:20:50

1v1飘过

凡桃 发表于 2023-9-22 16:37:53

呵呵。。。

凝竹 发表于 2023-9-22 16:37:53

LZ敢整点更有创意的不?兄弟们等着围观捏~

荷觅 发表于 2023-9-22 17:54:34

我是个凑数的。。。

南霜 发表于 2023-9-22 19:04:58

路过的帮顶

凝雅 发表于 2023-9-22 20:05:27

嘘,低调。
页: [1] 2 3 4 5 6
查看完整版本: 盘酷分享站百度网盘会员不限速会员账号免费领取