盘酷分享站百度网盘会员一天免费领取一个月永久更新
盘酷分享站百度网盘会员一天免费领取一个月永久更新自监督预训练任务
VIMER-StrucTexT 2.0 预训练环节采用的是在 CV&NLP 领域被广泛应用的 Mask-Predict 机制。预训练流程包括四个环节:
1)基于网络公开数据抓取超 1 亿张文档图像数据,采用百度高精度OCR服务进行文字检测和识别,保留高置信度文字信息(包括文本内容和位置);
2)对文档图像的文本区域进行随机掩码,并输入给编码器进行特征编码;
3)利用文字位置信息对掩码的文本区域通过ROI操作提取相应的特征,得到每个文本区域的表征信息;
4)最后将表征信息分别输入给两个掩码预训练任务进行图像重建(采用图像生成模型设计方式,还原被掩码的文本区域图像)和文本推理(利用文本区域表征信息直接预测被掩码区域中的文本内容),通过大数据的加持能够让编码器充分学习到文档多模态知识。
更多资源访问【拾盘网】
http://www.10pan.net/
百度网盘超级会员一天一个月体验借用租用
http://www.mypanku.com/thread-11422-1-1.html
扫我领取
顶起顶起顶起 1v1飘过 <<盘酷分享站百度网盘会员一天免费领取一个月永久更新>>好,很好,非常好! 好帖必须得顶起 <<盘酷分享站百度网盘会员一天免费领取一个月永久更新>>呵呵,低调,低调!