今天,我面临来自上级的一个非常独特的要求。他问我是否可以先做一个模型,然后我们收集数据进行培训,因为我们还没有任何数据。
我完全不知道该怎么处理这个问题。有没有人建议我应该如何在没有任何数据的情况下进行建模?谢谢
发布于 2021-03-15 03:23:20
在现实世界的公司中,这并不是一个非常奇怪的情况,它们现在想要构建数据科学应用程序和其他与数据相关的东西,但是没有足够的历史数据(或者根本没有)。
在这种情况下,定义模型可能对您有所帮助,因此:
另一个选项,我曾经用它来预先检查一些想法(在获得数据之前)是根据已知的数据分布来模拟一些数据,您知道在不久的将来可能会有的;例如,您可能想要模拟客户的年龄,客户的帐户金额.存储在某个开放数据平台上的其他银行。
在这种情况下,您可以使用一个核密度估计来建模您的数据,然后生成一些合成样本。下面您可以找到我在类似情况下所做的事情,在这种情况下,橙色条是使用与我公司最终拥有的变量相似的变量检索的开放数据(在这种情况下,我需要每个婚姻状况的年龄,并在类似国家的银行中找到它),并用于生成内核密度数据生成器(蓝线):
发布于 2021-03-15 03:44:51
你必须先考虑数据的类型,算法的类别,以及机器学习的哪个分支.例如:
在此之后,您可以为您的用例选择一些合适的算法(例如回归、随机森林或其他合适的方法),然后生成一些模拟数据,这些数据一旦得到,就大致近似于数据。
然后,您可以在模拟数据集上对模型进行培训和测试,为收集真实数据做准备。
在这个阶段,听起来您需要收集更多关于用例的信息,以便您知道开发的方向。
https://datascience.stackexchange.com/questions/90668
复制