首页
学习
活动
专区
工具
TVP
发布

黑泽君的专栏

专栏成员
708
文章
1775028
阅读量
103
订阅数
大数据面试之_01_IT 从业人员面试小技巧
  一般来说,面试你的人都不是一个很好对付的人。别看他彬彬有礼,看上去笑眯眯的,很和气的样子。但没准儿一肚子坏水。
黑泽君
2019-09-16
5820
大数据技术之_32_大数据面试题_01_Hive 基本面试 + Hive 数据分析面试 + Flume + Kafka 面试
一、Hive 基本面试1、什么是 metastore2、metastore 安装方式有什么区别3、什么是 Managed Table 跟 External Table?4、什么时候使用 Managed Table 跟 External Table?5、hive 有哪些复合数据类型?6、hive 分区有什么好处?7、hive 分区跟分桶的区别8、hive 如何动态分区9、map join 优化手段10、如何创建 bucket 表?11、hive 有哪些 file formats12、hive 最优的 file formats 是什么?13、hive 传参14、order by 和 sort by 的区别15、hive 跟 hbase 的区别二、Hive 数据分析面试1、分组 TopN,选出今年每个学校、每个年级、分数前三的科目2、今年,北航,每个班级,每科的分数,及分数上下浮动 2 分的总和3、where 与 having:今年,清华 1 年级,总成绩大于 200 分的学生以及学生数三、Flume + Kafka 面试1、flume 如何保证数据的可靠性?2、kafka 数据丢失问题,及如何保证?3、kafka 工作流程原理4、kafka 保证消息顺序5、zero copy 原理及如何使用?6、spark Join 常见分类以及基本实现机制
黑泽君
2019-06-19
1.8K0
大数据技术之_31_Java 面试题_02_== 和 equals 有什么区别 + String 相关 + 多态 + 传值 + static 加载机制 + 线程
程序员级别:码龙 > 码神 > 码农 > 码畜 学生级别:学神 > 学霸 > 学渣 > 学弱
黑泽君
2019-06-19
4710
大数据技术之_31_Java 面试题_01_JavaSE 面试题 + SSM 面试题 + Java 高级面试题 + Java 项目面试题
要点: 1、某个类只能有一个实例;   构造器私有化 2、它必须自行创建这个实例;   含有一个该类的静态变量来保存这个唯一的实例 3、它必须自行向整个系统提供这个实例;   对外提供获取该实例对象的方式:   (1)直接暴露   (2)用静态变量的get方法获取
黑泽君
2019-06-19
8461
大数据技术之_30_JVM学习_01
熟悉 JVM 架构与 GC 垃圾回收机制以及相应的 JVM 调优,有过在 Linux 系统下的调优经验。
黑泽君
2019-06-16
7260
大数据技术之_29_MySQL 高級面试重点串讲_02
  MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。
黑泽君
2019-06-16
6390
大数据技术之_28_电商推荐系统项目_02
离线推荐服务建设 + 实时推荐服务建设 + 基于隐语义模型的协同过滤推荐(相似推荐)+ 基于内容的协同过滤推荐(相似推荐)+ 基于物品的协同过滤推荐(相似推荐)
黑泽君
2019-06-15
4.4K0
大数据技术之_28_电商推荐系统项目_01
  项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合教学体系的一体化的电商推荐系统,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方位的闭环的业务实现。
黑泽君
2019-06-15
3K1
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
List 元素的追加 方式1-在列表的最后增加数据 方式2-在列表的最前面增加数据
黑泽君
2019-06-14
2.7K0
大数据技术之_27_电商平台数据分析项目_03_项目概述 + 项目主体架构 + 模拟业务数据源 + 程序框架解析 + 需求解析 + 项目总结
1、user_visit_action user_visit_action 表,存放网站或者 APP 每天的点击流数据。通俗地讲,就是用户对 网站/APP 每点击一下,就会产生一条存放在这个表里面的数据。
黑泽君
2019-06-14
3.6K0
大数据技术之_27_电商平台数据分析项目_01_大数据的框架回顾 + 大数据的企业应用
Hadoop job 提交简图 或 YARN 架构 或 YARN 工作机制 或 job 提交流程 0、job 提交简图
黑泽君
2019-05-30
1.1K0
大数据技术之_26_交通状态预测项目_01
该项目以车辆预测为基础,学习业务解决的方法论。 学习完本项目后,可以解决如下问题或适用于如下业务场景:   1、公路堵车预测   2、地铁人流量预测   3、共享单车聚集点预测等等
黑泽君
2019-05-30
1.2K0
大数据技术之_24_电影推荐系统项目_08_项目总结及补充
一 数据加载服务1、目标2、步骤二 离线推荐服务2.1 基于统计性算法1、目标2、步骤2.2 基于隐语义模型(LFM)的协同过滤推荐算法(ALS)1、目标2、步骤2.3 基于 ElasticSearch 的内容推荐算法1、目标2、步骤2.4 基于内容的推荐服务--电影标签三 实时推荐服务3.1 推荐算法解析3.2 实时推荐算法的实现过程3.3 日志的预处理四 综合业务服务4.1 后台架构4.2 Spring 框架搭建4.3 API 接口规划五 用户可视化服务5.1 前端框架搭建5.2 创建与运行项目5.2.1 创建项目骨架5.2.2 添加项目依赖5.2.3 创建模块、组件与服务5.2.4 调试项目5.2.5 发布项目六 项目重构6.1 核心模型提取6.2 通过配置的方式来获取硬编码的值6.3 项目打包6.3.1 AngularJS 前端文件打包6.3.2 businessServer 下的 java web 项目的打包方式6.3.3 核心模型 项目的打包方式6.3.4 recommender 下的后端文件打包方式6.4 系统部署
黑泽君
2019-05-26
2.6K0
【IEDA】Typo: In woed 'xxx' more...(Ctrl + F1) 拼写检查
  不知道大家有没有发现,在我们用 IDEA 敲击代码的时候,经常会发现如下所示的现象:
黑泽君
2019-05-25
1.3K0
大数据技术之_24_电影推荐系统项目_07_工具环境搭建(具体实操)
第2章 工具环境搭建(具体实操)2.1 MongoDB(单节点)环境配置2.2 Redis(单节点)环境配置2.3 ElasticSearch(单节点)环境配置2.4 Azkaban(单节点)环境配置2.4.1 安装 Git2.4.2 编译 Azkaban2.4.3 部署 Azkaban Solo2.5 Spark(单节点)环境配置2.6 Zookeeper(单节点)环境配置2.7 Flume-ng(单节点)环境配置2.8 Kafka(单节点)环境配置2.9 Apache 环境配置2.10 Tomcat 环境配置2.11 开发环境配置2.11.1 安装IDEA(略)2.11.2 Postman 安装2.11.3 安装 nodejs2.11.4 安装AngularJS CLI
黑泽君
2019-05-24
1.5K0
大数据技术之_24_电影推荐系统项目_05_项目系统设计
第十章 项目系统设计10.1 项目系统设计(上)10.2 项目系统设计(中)10.3 项目系统设计(下)
黑泽君
2019-05-23
1K0
大数据技术之_24_电影推荐系统项目_06_项目体系架构设计 + 工具环境搭建 + 创建项目并初始化业务数据 + 离线推荐服务建设 + 实时推荐服务建设 + 基于内容的推荐服务建设
  用户可视化:主要负责实现和用户的交互以及业务数据的展示, 主体采用 AngularJS2 进行实现,部署在 Apache 服务上。(或者可以部署在 Nginx 上)   综合业务服务:主要实现 JavaEE 层面整体的业务逻辑,通过 Spring 进行构建,对接业务需求。部署在 Tomcat 上。 【数据存储部分】   业务数据库:项目采用广泛应用的文档数据库 MongDB 作为主数据库,主要负责平台业务逻辑数据的存储。   搜索服务器:项目采用 ElasticSearch 作为模糊检索服务器,通过利用 ES 强大的匹配查询能力实现基于内容的推荐服务。   缓存数据库:项目采用 Redis 作为缓存数据库,主要用来支撑实时推荐系统部分对于数据的高速获取需求。 【离线推荐部分】   离线统计服务:批处理统计性业务采用 Spark Core + Spark SQL 进行实现,实现对指标类数据的统计任务。   离线推荐服务:离线推荐业务采用 Spark Core + Spark MLlib 进行实现,采用 ALS 算法进行实现。   工作调度服务:对于离线推荐部分需要以一定的时间频率对算法进行调度,采用 Azkaban 进行任务的调度。 【实时推荐部分】   日志采集服务:通过利用 Flume-ng 对业务平台中用户对于电影的一次评分行为进行采集,实时发送到 Kafka 集群。   消息缓冲服务:项目采用 Kafka 作为流式数据的缓存组件,接受来自 Flume 的数据采集请求。并将数据推送到项目的实时推荐系统部分。   实时推荐服务:项目采用 Spark Streaming 作为实时推荐系统,通过接收 Kafka 中缓存的数据,通过设计的推荐算法实现对实时推荐的数据处理,并将结果合并更新到 MongoDB 数据库。
黑泽君
2019-05-23
5K0
简单线性回归模型(最小二乘法代码实现)
简单线性回归模型(最小二乘法代码实现) 0.引入依赖 import numpy as np import matplotlib.pyplot as plt 1.导入数据(data.csv) points = np.genfromtxt('data.csv', delimiter=',') # points # 提取 points 中的两对数据,分别作为 x, y # points[0][0]  等价于 # points[0,0]  # 第一行第一列数据 # points[0,0:1] # array([3
黑泽君
2019-05-19
2.2K0
LFM--梯度下降法--实现基于模型的协同过滤
LFM--梯度下降法--实现基于模型的协同过滤 0.引入依赖 import numpy as np # 数值计算、矩阵运算、向量运算 import pandas as pd # 数值分析、科学计算 1.数据准备 # 定义评分矩阵 R R = np.array([[4, 0, 2, 0, 1],               [0, 2, 3, 0, 0],               [1, 0, 2, 4, 0],               [5, 0, 0, 3, 1],               [
黑泽君
2019-05-19
8680
06_TF-IDF算法代码示例
TF-IDF算法代码示例 0.引入依赖 import numpy as np # 数值计算、矩阵运算、向量运算 import pandas as pd # 数值分析、科学计算 1.定义数据和预处理 # 定义文档 docA = 'The cat sat on my bed' docB = 'The dog sat on my knees' # 切割文档 bowA = docA.split(' ') bowB = docB.split(' ') # bowA # ['The', 'cat', 'sat', '
黑泽君
2019-05-19
8090
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档