本公众号作者致力于推送本人在互联网大数据处理技术与应用相关的科研及教学中的经验、总结和热点技术介绍,同时也为《互联网大数据处理技术与应用》(曾剑平、清华大学出版社,2017)一书的读者提供技术交流和共享平台。所有文章均由作者原创,主要围绕爬虫技术、Web信息处理、文本处理、大数据挖掘模型与算法、隐私保护、大数据技术平台、应用等。
原创是本公众号的最主要的特色,在这里你可以获得一手资料。由于是原创,文章的推送只能做到每周1-2篇。在这里整理了一下本公众号中,2017年一些受关注度比较高的文章。
指出了大数据知识的四层体系,分析了各个层次的主要技术以及学习、教学和研究的切入点。
分析了大数据价值挖掘的难点和重点在于非结构化数据处理,特别是文本信息,指出了结构化、非结构和半结构化等概念的区别联系。
从线性代数、概率论、最优化等多个数学基础,进行了详细的分析说明,对于要理解大数据技术的基础非常有用。
针对目前大数据技术平台种类繁多,本文进行了归纳、归类,拟清平台分类和选择方法。
描述了三类分词方法,分别是基于词典的分词方法、基于统计模型的优选方法和基于统计模型的序列标注方法。
整理了互联网大数据的相关行政法规、部门规章、规范性文件。
AI时代,很多人对机器人感到恐惧,关于机器人是否会突击人类、主宰世界新秩序的顾虑也引起很多讨论。
PageRank算法是一个经典算法,出身于google搜索引擎。但其理解并不是太容易,本文从分糖果的实际例子说起。
网络爬虫应该如何管理众多的需要爬行的超链接,本文给出了两种方法的实现(python)
里面包含机器学习的主要过程,分解出机器学习的若干个关键技术。
针对作者编著的书,提供了网络爬虫、Web提取、文本处理的一些参考代码和工具,使用本书做教材的教师可以基于这些来设计实验课。
提供了一些作者讲课的PPT获取途径,使用本书做教材的教师可以联系我。
领取专属 10元无门槛券
私享最新 技术干货