首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【公开数据集】WenetSpeech:10000小时的中文语音识别数据集

WenetSpeech

10000小时的中文语音识别数据集

该数据集是一个10000+小时多领域中文语音识别语料库,所有数据均来自 YouTube 和 Podcast。采用光学字符识别 (OCR) 和自动语音识别 (ASR) 技术分别标记每个 YouTube 和 Podcast 录音。为了提高语料库的质量,作者使用一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20220302A05RY100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券