曼友 发表于 2024-1-7 09:57:15

盘酷分享站百度网盘引入了百度视觉技术部首创提出的“单模态图像输入

盘酷分享站百度网盘引入了百度视觉技术部首创提出的“单模态图像输入

考虑实际使用场景,很多时候我们的试卷、文档里面有时候排版比较复杂,这个时候,想要生成电子版文字,需要精准输出的难度会比较大。现在复杂的排版,百度网盘都能帮你还原回来。


百度网盘引入了百度视觉技术部首创提出的“单模态图像输入、多模态知识学习”预训练框架,具有超强的语义结构化信息理解能力,是业界首个OCR全任务基础预训练模型——VIMER-StrucText 2.0。
VIMER-StrucTexT 2.0
VIMER-StrucTexT 2.0避免了传统OCR + NLP的两阶段算法导致的优化效率低下的问题,真正做到一个模型输出OCR全任务结果,包括文档图像分类、文档版式分析、表格结构解析、文档端到端OCR和端到端信息抽取任务。相关论文已被国际顶级会议ICLR 2023接收。
VIMER-StrucTexT 2.0获得的显著性能提升,主要来源于模型的Hybrid骨架结构、自监督预训练任务以及亿级别预训练数据,从而更好地学习到了多模态信息之间的关联以及特征表达。
Hybrid神经网络结构


更多资源访问【拾盘网】
http://www.10pan.net/
百度网盘超级会员一天一个月体验借用租用
http://www.mypanku.com/thread-11422-1-1.html

扫我领取

映波 发表于 2024-1-7 10:58:26

垃圾内容,路过为证。

寻云 发表于 2024-1-7 12:15:01

瑶向 发表于 2024-1-7 13:17:11

我也是坐沙发的

夏晓 发表于 2024-1-7 14:20:45

阳冷 发表于 2024-1-7 15:37:26

尔容 发表于 2024-1-7 16:58:51

一直在看

如曼 发表于 2024-1-7 18:27:50

支持你哈...................................

寒惜 发表于 2024-1-7 19:43:01

笑柳 发表于 2024-1-7 20:45:23

支持楼主,用户楼主,楼主英明呀!!!
页: [1] 2 3 4 5 6
查看完整版本: 盘酷分享站百度网盘引入了百度视觉技术部首创提出的“单模态图像输入