暂无搜索历史
Flink笔记 1.数据集类型 有界数据集:具有时间边界,在处理过程中数据一定会在某个时间范围内起始和结束。提供DataSet API 无界数据集: 数据从一开...
Step2:sudo apt-get install openmpi-bin</br>
1.1 spark.read.json() / spark.read.parquet() 或者 spark.read.load(path,format=”par...
近日实验中需要用到小顶堆,记录下来,便于日后参考. 123456789101112131415161718192021 import heapq# 定义一个小...
使用场景对比:set 存储单个大文本非结构化数据,hset 则存储结构化数据,一个 hash 存储一条数据,一个 filed 则存储 一条数据中的一个属性,va...
使用豆瓣源 sudo pip install #package -i http://pypi.douban.com.simple —trusted-host ...
近日,论文中涉及到NP-Hard问题,写下笔记对以上问题进行区分. P问题:在多项式时间内可以求解的问题. NP问题:在多项时间内不能求解,在多项式时间内可...
安装mpi4py所需要的依赖包(python2.7版本/Cpython/Openmpi) 1.源码包安装Python2.7版本
这是一个基本概念,且很重要,记录一下. 树的定义:用图的知识来表示即为,无环的连通图或者边数等于顶点数减1. 1234567891011121314151...
neo-4j由两部分组成:relationship,label和property,label或者relationship中包含property,label与la...
1.连接数据库(三种方式相等) 123 graph_1 = Graph()graph_2 = Graph(host="localhost")graph_3 =...
基础版:https://tech.meituan.com/2016/04/29/spark-tuning-basic.html
Scala笔记 1.四种操作符的区别和联系 :: 该方法成为cons,表时构造,向队列头部加入元素。x::list表示向list头部加入元素。(列表构造: 1...
腾讯 | 产品运营 (已认证)
申请条件:至少有 10 篇或以上符合投稿要求可迁入腾讯云专栏的原创技术文章。
2.1数据清洗:填写缺失值、光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据
1)用途:评价特征或变量的预测能力。类似的指标还有信息增益 、增益率和基尼系数等
example: 一个班有学生id,成绩,班级,现在将学生根据班级按照成绩排名。(partition by)
用bootstrap自助法生成m个训练集,对每个训练集构造一颗决策树,在节点找特征进行分裂的时候,并不是对所有特征找到使得指标(如信息增益)最大的,而是在特征中...
暂未填写公司和职称
暂未填写个人简介
暂未填写个人网址