盘酷分享站百度网盘会员不限速会员账号免费领取
盘酷分享站百度网盘会员不限速会员账号免费领取这里主要介绍下兼顾视觉特征表示和文本语义建模的预训练方案。
针对目前预训练方案存在的合成数据和下游任务差异大,以及忽略文本语义建模的问题,百度创造性地提出了图像文本多模态,自监督和强监督结合的预训练范式。通过使用Mask Image Modeling (MIM) 在大量的真实数据上面预训练encoder,以使encoder具备提取较好的视觉表征的能力。
同时,使用Mask Vision Language Modeling (MVLM) 的方式在合成数据上面预训练decoder,使decoder能够建模文本语义。此外,为了避免合成数据对encoder产生干扰,在训练decoder的时候,通过固定住encoder的参数,即保留了encoder在真实数据上面提取良好视觉表征的能力,同时也兼顾了语义的建模。
基于VIMER-MaskOCR底座大模型,百度网盘在各种类型的文字识别上效果提升显著,一起来看看效果:
超强大脑:复杂排版 一键还原
更多资源访问【拾盘网】
http://www.10pan.net/
百度网盘超级会员一天一个月体验借用租用
http://www.mypanku.com/thread-11422-1-1.html
扫我领取
路过 帮顶 嘿嘿 为毛老子总也抢不到沙发?!! 1v1飘过 呵呵。。。 LZ敢整点更有创意的不?兄弟们等着围观捏~ 我是个凑数的。。。 路过的帮顶 嘘,低调。