盘酷分享站百度网盘引入了百度视觉技术部首创提出的“单模态图像输入
盘酷分享站百度网盘引入了百度视觉技术部首创提出的“单模态图像输入考虑实际使用场景,很多时候我们的试卷、文档里面有时候排版比较复杂,这个时候,想要生成电子版文字,需要精准输出的难度会比较大。现在复杂的排版,百度网盘都能帮你还原回来。
百度网盘引入了百度视觉技术部首创提出的“单模态图像输入、多模态知识学习”预训练框架,具有超强的语义结构化信息理解能力,是业界首个OCR全任务基础预训练模型——VIMER-StrucText 2.0。
VIMER-StrucTexT 2.0
VIMER-StrucTexT 2.0避免了传统OCR + NLP的两阶段算法导致的优化效率低下的问题,真正做到一个模型输出OCR全任务结果,包括文档图像分类、文档版式分析、表格结构解析、文档端到端OCR和端到端信息抽取任务。相关论文已被国际顶级会议ICLR 2023接收。
VIMER-StrucTexT 2.0获得的显著性能提升,主要来源于模型的Hybrid骨架结构、自监督预训练任务以及亿级别预训练数据,从而更好地学习到了多模态信息之间的关联以及特征表达。
Hybrid神经网络结构
更多资源访问【拾盘网】
http://www.10pan.net/
百度网盘超级会员一天一个月体验借用租用
http://www.mypanku.com/thread-11422-1-1.html
扫我领取
垃圾内容,路过为证。 我也是坐沙发的 一直在看 支持你哈................................... 支持楼主,用户楼主,楼主英明呀!!!