大数据文摘出品
编译:蒋宝尚
今天,文摘菌给大家介绍几个比较有特色的数据科学模块,这些模块原本是一些教师用来进行教学使用,帮助学生有机会使用与其课程相关的数据集,并指导学生进行数据分析以及帮助理解统计和计算机原理。
一起来看~
模块合集链接:
https://ds-modules.github.io/DS-Modules/
Introduction to Phonetics and Phonolog
这个模块由两个实验组成,实验所用到的数据都是学生自己收集的,并且在这个模块中,学生独立分析数据并编码。在第一个实验室里,学生们研究声音开始以及结束的时间,以及母语口语和身高之间的相关性。在第二个实验中,学生分析元音发音,并将研究个体相互比较,从而揭示单个元数据对特征预测能力的影响。该模块适用于没有编码或统计经验的学生。
Neighborhood Mapping
本模块让学生分析并可视化整个东湾人口普查区的社会经济和人口变化情况。学生们到社区进行定性观察,然后与人口普查数据进行比较。把一些的观察结果组合成一幅地图。该模块适用于没有编码或统计经验的学生。
Macroeconomics
这个模块包含一些宏观经济学问题集。 第一个notebook帮助学生使用Latex公式以及教他们如何插图。 第一个notebook的建模部分可视化了索洛增长模型。该模块还使用自动评分功能可以及时反馈学生提交的作业。同样,该模块也适用于没有编码或统计经验的学生
Chinatown and Culture of Exclusion
使用20世纪-21世纪的人口统计数据,让学生分析一个特定的唐人街随着时间的推移是如何变化的。在实验过程中,学生可以使用一些简单的文本分析方法做相关研究。
Implicit Bias and Social Outcomes
本模块向学生介绍相关和回归分析。学生从一个关于健康结果的数据集和一组关于内隐偏见的数据集中挑选出整个美国的县级数据集。然后,他们将这两个数据集合并,并计算相关性和进行回归预测,从而确定偏见与健康结果之间是否存在相关性。
Moral Foundations Theory
这些模块将政治演讲中的词汇使用与道德基础理论联系起来。这些数据的统计推断和可视化帮助学生寻找保守派和自由派总统候选人之间的修辞差异。然后,学生们将数据驱动的方法作为修辞工具进行研究和批判。
Sumerian Text Analysis
本模块使用一个有趣的数据集,即苏美尔文学电子文本语料库(ETCSL)。这些文本是从六千年前的资料中翻译出来的。在本模块中使用的技术在文本分析中不太常见,如k均值、分层聚类和多维缩放。
Data, Prediction, and Law
利用2016年美国总统竞选演讲的数据,学生从语音文本中挖掘特征,可视化这些特征,并用主成分分析提取特征。该模块最后给出了一个三维特征图的例子,此模块需要学生有一些统计学知识。
最后,在次给出项目合集:
https://ds-modules.github.io/DS-Modules/
【今日机器学习概念】
Have a Great Definition
领取专属 10元无门槛券
私享最新 技术干货