来源:机器学习AI算法工程本文约1200字,建议阅读5分钟本文为你推荐一键中文数据增强工具。
使用:pip install nlpcda
https://github.com/425776024/nlpcda
一键中文数据增强工具,支持:
经过细节特殊处理,比如不改变年月日数字,尽量保证不改变原文语义。即使改变也能被猜出来、能被猜出来、能被踩出来、能被菜粗来、被菜粗、能菜粗来。
例子: input: 新华社北京消息 > fastspeech2 > x.wav x.wav > wav2vec2 > output: 新华设北京消息
今天是8月29日消息 > 今天是八月二十九日消息
我有1234个苹果 > 我有一千二百三十四个苹果
⚠️ 单纯刷准确率分数的比赛,用此包一般不会有分数提升
参数:
参数:
参数:
参数:
输入标注好的NER数据目录,和需要增强的标注文件路径,和增强的数量,即可一键增强。
Ner类参数:
参数:
用于使用之前,增加分词效果
1.百度中英翻译互转实现的增强 note:
申请你的 appid、secretKey:
http://api.fanyi.baidu.com/api/trans
编辑:于腾凯
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有