Notebook 探索

最近更新时间:2024-07-24 14:57:41

我的收藏

功能概述

WeData 全新推出 Notebook 探索功能,支持通过 Jupyter Notebook 读取腾讯云大数据引擎 EMR 和 DLC 的数据,借助交互式数据分析,进行数据探索和机器学习。
目前 Notebook 探索已上线北京、上海地域,现面向用户进行邀测。您可以单击 试用申请 进行申请。
说明:
邀测期间可免费使用 Notebook 探索功能,邀测期结束后将进行商业化计费。




功能特性

一键创建工作空间

无需手动安装 Python 环境和配置环境依赖,支持一键创建 Notebook 工作空间,包含完整的 Jupyter Notebook 环境和常用的依赖包。

用户和资源隔离

每个用户在不同项目下独享工作空间,各个工作空间的存储和计算资源相互隔离,用户的任务、文件资源不会相互干扰。

联动大数据引擎底座

支持绑定 EMR 和 DLC 大数据引擎,可以直接读取大数据存算引擎中的数据进行交互式探查、算法模型训练和数据预测性分析。

内置最佳实践教程

Notebook 工作空间内置了大数据系列教程和吴恩达 AI 系列教程,支持用户开箱即用,快速上手体验。

操作步骤

进入数据探索页面

2. 单击左侧菜单中的项目列表,找到需要操作 Notebook 探索功能的目标项目。
3. 选择项目后,单击进入数据开发模块。
4. 单击左侧菜单中的 Notebook 探索

创建工作空间

每个子用户可以创建独立的 Notebook 工作空间,用户之间的工作空间互不干扰。
1. 单击创建工作空间,进入工作空间配置页面。



2. 配置项说明
属性项名称
属性项说明
是否必填
基本信息
配置 Notebook 工作空间的基本信息,用于创建 Notebook 工作空间实例

空间名称
Notebook 工作空间名称,支持中文、英文、数字、下划线、中划线,长度不超过32字符
描述
Notebook 工作空间描述,支持中文、英文、数字、特殊字符等,长度不超过255字符
镜像
Jupyter Notebook 的默认镜像
引擎
支持选择当前项目绑定的 EMR 或 DLC 存算引擎,选择后将与该存算引擎进行预联通,在 Notebook 任务中可以使用 PySpark 的方式进行访问
网络
当选择 EMR 引擎时,需要进一步选择网络配置用于进行网络打通,默认使用 EMR 引擎所在的 VPC 和子网
计算资源
当选择 DLC 引擎时,需要进一步选择计算资源,用于执行 DLC PySpark 任务。
说明:
仅支持 DLC Spark 作业类型的计算资源。
RoleArn
当选择 DLC 引擎时,需要进一步选择 RoleArn,用于授权数据存储 COS 的访问权限
说明:
RoleArn为DLC 引擎访问对象存储 COS 的数据访问策略(CAM role arn),需要用户在 DLC 进行配置。
资源配置
配置工作空间的存储和计算资源,用于执行 Notebook 任务运行、文件存储

规格选择
支持的规格包括:
2核 4GB内存 / 8GB存储(体验版)
4核 8GB内存 / 16GB存储(进阶版)
8核 16GB内存 / 32GB存储(极速版)

启动工作空间

1. 单击立即创建,进入 Notebook 工作空间启动页面。
2. 启动过程中,将为您进行 PySpark 环境配置,并安装 numpy、pandas、scikit-learn 等常用 Python 包,安装过程需要一定时间,请耐心等待直至安装完成。
3. Notebook 工作空间进入如下页面,表示已经启动成功,可以开始 Notebook 任务的创建。
说明:
内核版本仅支持 Python 3.11.1,请勿选择其他版本内核。




工作空间管理

退出工作空间

单击左上方退出按钮,则会退出当前工作空间,回到了列表页面。退出后的工作空间将在十分钟后自动停止,停止状态的工作空间再次启动将恢复开发环境和数据。




编辑工作空间

单击列表页编辑按钮,支持对当前工作空间的配置信息进行修改。支持修改的配置项包括:空间名称、描述、资源配置。




删除工作空间

单击列表页删除按钮,支持删除当前工作空间。

实践教程

Notebook 工作空间内置了开箱即用的大数据系列教程和吴恩达 AI 系列教程,用户可以快速上手体验。

面向 DLC 进行数据分析

该样例 Notebook 演示了如何分析数据湖计算 DLC(Data Lake Compute,DLC)中的数据,Notebook 空间已经内置了 DLC Jupyter 插件,可以直接加载使用。示例语法包括运行 Spark 代码、SparkSQL 代码,以及使用 。SparkML。




读取 EMR 数据进行模型预测

1. 该样例 Notebook 演示了如何创建 EMR-Hive 表,并且将本地数据导入到 EMR-Hive 表中。然后从 EMR-Hive 表中读取数据并转化成 pandas Dataframe 进行数据准备。
2. 完成数据准备后,您可以使用 prophet 时间序列算法来训练一个预测模型,最后进行模型准确性的评估和预测。