首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据科学】数据科学书上很少提及的三点经验

【编者按】本文作者指出了关于数据科学书上很少提及的三点经验:模型评价方法是关键,特征提取是根本,模型选择而非数据集规模最费时间。...显然没错,但关键是确保算法在未来数据上仍旧得到出色的效果。我在别处也写过,如果仅凭着训练数据的表现就轻信自己的算法,实在是太自欺欺人了。 那么下面是我的三个主要见解,其它书本里很少提及。...但最终你需要将这种算法应用于未来的数据,同时希望确保在新数据上的表现和在原始数据集上的表现几乎一样好。 初学者常犯的错误就是仅仅关注手头数据集上的表现效果,然后认为在未来数据上同样奏效。...不幸的是,这更像是一门艺术,而且因为理论不完善书本里很少提及。特征值归一化是一条捷径。有时候,特征值需要取对数计算。...一个坏消息主要针对大数据而言,因为所有的这些意味着对大规模实现复杂算法的需求很少,然而多数情况下目前用非分布式算法并行计算内存中的数据已经很有帮助了。

614100
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据没用?!张小龙:我们很少看统计数据

    导读:关于大数据的应用案例我们已经推送过很多,但大数据不是万能的,因为大数据只是研究数据之间的相关性,解决不了因果性。相比之下,身段更灵活的“小数据”反而更善于看穿因果性。...01 微信通过小数据探索需求 张小龙有一次说,“近期有个同事找我聊,问我是如何通过统计数据来看用户的喜好,通过数据来做一些东西。...结果我的回答是,其实我们很少看统计数据,也几乎没从统计数据里看到用户的喜好。根据统计数据来找需求和方向是挺难的。我们也不会去了解手机QQ的统计数据来指导微信的工作。”...这个问题的实质不在于大数据,而在于数据挖掘和分析的处理方式的差异化。大数据也可以做出这些深入的分析,但是现实的情况是,大多数决策所需要的全数据几乎是很难获得的。...当下,大家都大谈大数据,但是马丁·林斯特龙认为,大数据连接了千百万的数据点,可以准确地产生相互关系。但是,当人类按照自己的习惯行动时,大数据分析通常不会十分准确。

    67920

    数据科学】数据科学书上很少提及的三点经验

    显然没错,但关键是确保算法在未来数据上仍旧得到出色的效果。我在别处也写过,如果仅凭着训练数据的表现就轻信自己的算法,实在是太自欺欺人了。 那么下面是我的三个主要见解,其它书本里很少提及。...但最终你需要将这种算法应用于未来的数据,同时希望确保在新数据上的表现和在原始数据集上的表现几乎一样好。 初学者常犯的错误就是仅仅关注手头数据集上的表现效果,然后认为在未来数据上同样奏效。...现实世界的数据往往如此。一月份的销售图表和六月份的看上去会迥然不同。 或者数据点之间相关性很高,就是说若你知道一个数据点,那另一个样本数据的信息也八九不离十了。...不幸的是,这更像是一门艺术,而且因为理论不完善书本里很少提及。特征值归一化是一条捷径。有时候,特征值需要取对数计算。...一个坏消息主要针对大数据而言,因为所有的这些意味着对大规模实现复杂算法的需求很少,然而多数情况下目前用非分布式算法并行计算内存中的数据已经很有帮助了。

    59160

    C# 很少人知道的科技

    本文来告诉大家在C#很少有人会发现的科技。即使是工作了好多年的老司机也不一定会知道,如果觉得我在骗你,那么请看看下面。 因为C#在微软的帮助,已经从原来很简单的,到现在的很好用。...在10多年,很少人知道微软做了哪些,我在网上找了很多大神的博客,然后和很多大神聊天,知道了一些科技,所以就在这里说。如果大家看到这个博客里面没有的科技,请告诉我。...var foo = new HvcnrclHnlfk(); 辣么大 实际上我有些不好意思,好像刚刚说的都是大家都知道的,那么我就要开始写大家很少知道 Func<string,string...var str = "kktpqfThiq"; string foo = $@"换行 {str}"; 注意两个的顺序,反过来直接告诉你代码不能这样写 表达式树获取函数命名 定义一个类..._count < 0; } } 是不是觉得很多有人这样写,下面让大家看一个很少人会知道的科技,感谢walterlv 重写运算返回 很少人知道实际上重写 == 可以返回任意的类型,

    62720

    Java IAQ:很少被回答的问题

    Q:什么是很少被回答的问题? 一个问题如果被回答地很少,有可能是因为知道答案的人很少,亦或是因为问题本身模糊不清、微不足道(但对你来讲可能很关键)。...那么你大概需要一个通过JDBC访问的数据库,或者将数据序列化,然后将它存成文件的形式。 Q:我可以将Math.sin(x)写成sin(x)吗? 长话短说:Java1.5之前的版本不可以。...下面是对一些数据结构进行读写操作的时间耗费表: Java编译器在循环中能检测出常量这件事做得并不好。C/Java的for循环是个比较糟糕的概念,因为它大部分时候会重复计算结束条件。...自动数据类型转换被废止了。虽然强制两类转换是有限制的,但是远不到被废止那个份上。你仍然可以写(1.0 + 2),2会自动被转换成double类型。

    61920

    这个排序这么酷,为什么知道的人很少

    arr,将元素放入对应的桶bucket 第二步:遍历桶bucket,将元素放回数据集arr } 更具体的,对应到上面的栗子,“基”有个位和十位,所以,FOR循环会执行两次。...第一步:遍历数据集arr,将元素放入对应的桶bucket; 操作完成之后,各个桶会变成上面这个样子,即:个位数相同的元素,会在同一个桶里。...第二步:遍历桶bucket,将元素放回数据集arr; 画外音:需要注意,先入桶的元素要先出桶。 操作完成之后,数据集会变成上面这个样子,即:整体按照个位数排序了。...第一步:依然遍历数据集arr,将元素放入对应的桶bucket; 操作完成之后,各个桶会变成上面这个样子,即:十位数相同的元素,会在同一个桶里。...第二步:依然遍历桶bucket,将元素放回数据集arr; 操作完成之后,数据集会变成上面这个样子,即:整体按照十位数也排序了。 画外音:十位数小的在前面,十位数大的在后面。

    27820

    数据建模的精华:很少有人真正理解数据模型的形态

    很多小伙伴要求讲一下数据模型的多种形态。...此时,任何一个分组都对应了多项数据。 第五步:汇总 在上一步的分组中,在每个组为对应的多项数据进行汇总。 此步骤输出:分组汇总表。...数据的列化 如果我们把数据理解成一些原子的话,那么这些原子的存在形态应该可以最优化地适配上述五种操作,我们看看这些操作需要的数据状态: 第一步,建立关系按照字段值来对比。 第二步,按照字段值筛选。...一对多关系 由于任何分析涉及的分组汇总表的根本上都要来自原始的数据表,那么,如何将数据元宇宙的数据用最快速度从几百万,几千万,几个亿坍缩成几百行就是关键的关键了,而且需要极度的性能,那么,这个的本质不是靠...推荐其书籍《数据仓库工具箱(第三版)》,该书籍系统化地提出了维度建模,以及如何做到大致规范的数据模型。而问题是,在过去刚刚学习数据建模的时候,就发现数据表怎么都不是星型模型,星型模型太理想了。

    61530

    数据获取:认识Scrapy

    在最后的实战项目中,我们将会使用Scrapy来做数据采集并进行深度的数据分析和可视化。 在Scrapy的官网上对它的介绍是:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。...Downloader(下载器) 从调度器中传过来的页面URL,下载器将负责获取页面数据并提供给引擎,而后把数据提供给spider。...Item Pipeline(实体管道) Item Pipeline负责处理Spider中获取到的Item,并进行后期处理,比如详细分析、过滤、存储等等操作。...在Parse()方法中,主要是完成了两个操作:1.提取目标数据2.获取新的url。...['language'] = language yield item 重写的DoubanSpider 类中getDetailLinks()和getMovieDetail()引用自之前数据获取小节中的内容

    22320
    领券