首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

原创 | 利用BERT 训练推特上COVID-19数据

模型基于BERT-LARGE (英文,不区分大小写,全字屏蔽)模型。BERT-LARGE主要用于训练英文维基百科(3.5B字)和免费书籍语料库(0.8B字)等大型的原始文本数据集,虽然这些数据集中包含了海量的数据,但是它却没有包含特殊子领域的相关信息,在一些特定的专业领域,已经有了利用transformer模型训练特殊专业领域的预料库的相关案例,如BIOBERT和SCIBERT,这些模型均采用完全相同的无监督训练技术MLM / NSP / SOP,需要消耗巨大的硬件资源。更为常见和通用的方法是首先利用通用的模型训练出权重,在完成专业领域的预训练之后,再将专业领域的预训练结果代替通用领域的预训练结果,输入到下游任务中进行训练。

03

《 Python 机器学习基础教程》总结

学完了本书介绍的所有强大的方法,你现在可能很想马上行动,开始用你最喜欢的算法来解决数据相关的问题。但这通常并不是开始分析的好方法。机器学习算法通常只是更大的数据分析与决策过程的一小部分。为了有效地利用机器学习,我们需要退后一步,全面地思考问题。首先,你应该思考想要回答什么类型的问题。你想要做探索性分析,只是看看能否在数据中找到有趣的内容?或者你已经有了特定的目标?通常来说,你在开始时有一个目标,比如检测欺诈用户交易、推荐电影或找到未知行星。如果你有这样的目标,那么在构建系统来实现目标之前,你应该首先思考如何定义并衡量成功,以及成功的解决方案对总体业务目标或研究目标有什么影响。假设你的目标是欺诈检测。

07
领券