欢迎大家与我一起来探索科技!让我们走在科技的最前沿。小编已经把最精彩的内容写在下边,请您耐心的把文章阅读完可以吗?您的阅读就是我坚持创作的动力!此外,满足小编一个小小的请求好吗?帮忙点点关注,阅读完文章别忘了留下您宝贵的意见!好吧,我们现在开始一起探索吧!
你一直在学习MOOC并阅读一堆教科书,但现在你做了什么?
获得数据科学的工作似乎令人生畏。
展示您的技能的最佳方式是使用投资组合。
这表明雇主可以使用你一直在学习的技能。
为了展示这些技能,这里有5种类型的数据科学项目供您的投资组合使用:
数据清理
数据科学家可以期望在新项目
清理数据
上花费高达80%的时间
。
对于球队来说,这是一个巨大的痛点。
如果您能证明您在清理数据方面经验丰富,那么您将立即获得更多价值。
要创建数据清理项目,请查找一些混乱的数据集,然后开始清理。
如果你正在使用Python,
Pandas
是一个很好的库,如果你正在使用R,你可以使用
dplyr
包。
确保展示以下技能:
导入数据
加入多个数据集
检测缺失值
检测异常
输入缺失值
数据质量保证
探索性数据分析
数据科学的另一个重要方面是探索性数据分析(EDA)。
这是生成问题并使用可视化对其进行调查的过程。
EDA允许分析师从数据中得出结论以推动业务影响。
它可能包括基于客户群的有趣见解,或基于季节性影响的销售趋势。
通常,您可以做出有趣的发现,这些发现并非初始考虑因素
用于探索性分析的一些有用的Python库是
Pandas
和
Matplotlib
。
对于R用户,
ggplot2
包将很有用。
EDA项目应该显示以下技能:
能够为调查制定相关问题
识别趋势
识别变量之间的协变
使用可视化(散点图,直方图,框和晶须等)有效地传达结果
交互式数据可视化
交互式数据可视化包括仪表板等工具。
这些工具对数据科学团队以及更多面向业务的最终用户都很有用。
仪表板允许数据科学团队进行协作,并一起绘制见解。
更重要的是,它们为面向业务的客户提供了一种交互式工具。
这些人专注于战略目标而非技术细节。
通常,数据科学项目的可交付成果将以仪表板的形式出现。
对于Python用户,
Bokeh
和
Plotly
库非常适合创建仪表板。
对于R用户,请务必查看RStudio的
Shiny
软件包。
您的仪表板项目应突出显示以下重要技能:
包括与客户需求相关的指标
创建有用的功能
逻辑布局(“F模式”便于扫描)
创建最佳刷新率
生成报告或其他自动操作
机器学习
机器学习项目是数据科学组合的另一个重要部分。
在您开始运行并开始构建一些深度学习项目之前,请退后一步。
而不是建立复杂的机器学习模型,坚持基础。
线性回归和逻辑回归是很好的开始。
这些模型更易于解释并与上层管理层沟通。
我还建议关注一个对业务有影响的项目,例如预测客户流失,欺诈检测或贷款违约。
这些比预测花型更真实。
如果您是Python用户,请使用
Scikit-learn
库。
对于R用户,请使用
Caret
包。
您的机器学习项目应该传达以下技能:
您选择使用特定机器学习模型的原因
将数据拆分为训练/测试集(k倍交叉验证)以避免过度拟合
选择正确的评估指标(AUC,adj-R ^ 2,混淆矩阵等)
特征工程和选择
超参数调整
通讯
沟通是数据科学的一个重要方面。
有效地传达结果是优秀数据科学家与优秀科学家之间的区别。
无论您的模型多么花哨,如果您无法向队友或客户解释,您将无法获得他们的支持。
幻灯片和笔记本电脑都是很好的沟通工具。
使用您的一个机器学习项目并将其放入幻灯片格式。
您还可以将
Jupyter Notebook
或
RMarkdown
文件用于通信项目。
确保了解您的目标受众是谁。
向高管们展示与向机器学习专家展示非常不同。
一定要掌握这些技能:
了解您的目标受众
提出相关的可视化
请勿过多地提供幻灯片
确保您的演示文稿流畅
将结果与业务影响相结合(降低成本,增加收入)
确保在Jupyter笔记本或RMarkdown文件中记录您的项目。
然后,您可以使用
Github Pages
将这些降价文件免费转换为静态网站
。
这是向潜在雇主展示您的投资组合的好方法。
保持积极态度,继续建立项目,您将在数据科学领域找到工作。
快乐找工作!
非常感谢各位看官能在百忙之中阅读小编的文章,您们的阅读和评论是小编继续坚持创作的动力。你们的每一个评论,小编都会去非常认真的去阅读,你们提出的宝贵意见我也会虚心接受,争取每天都为大家带来更多的优质文章。让大家不但可以增长见识,还可以有个好的心情。希望您能喜欢小编的文章!
 
领取专属 10元无门槛券
私享最新 技术干货