Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >neo4j︱Cypher完整案例csv导入、关系联通、高级查询(三)

neo4j︱Cypher完整案例csv导入、关系联通、高级查询(三)

作者头像
悟乙己
发布于 2019-05-26 12:11:46
发布于 2019-05-26 12:11:46
3.3K00
代码可运行
举报
文章被收录于专栏:素质云笔记素质云笔记
运行总次数:0
代码可运行

数据库常规的有:neo4j(支持超多语言)、JanusGraph/Titan(分布式)、Orientdb,google也开源了图数据库Cayley(Go语言构成)、PostgreSQL存储RDF格式数据。

—- 目前的几篇相关:—–

neo4j︱图数据库基本概念、操作罗列与整理(一)

neo4j︱Cypher 查询语言简单案例(二)

neo4j︱Cypher完整案例csv导入、关系联通、高级查询(三)

第三篇,一个比较完整的csv导入,并进行查询的案例,涉及的数据量较大,更贴合实际场景。


NorthWind Introduction

案例解析,官网:https://neo4j.com/developer/guide-importing-data-and-etl/

Github地址:https://github.com/neo4j-contrib/developer-resources

如果要全部一次性运行的话,可以键入命令:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
bin/neo4j-shell -path northwind.db -file import_csv.cypher

本文是官方的一个比较完整的案例,包括三部分:csv载入、建立实体关联、查询

其中csv载入与建立实体关联可以了解到如何为Neo4j的数据集;

cypher的查询也有难易之分,该案例中较好得进行了使用,有初级查询与高级查询。

该数据集 NorthWind dataset 可以在github之中找到:neo4j-contrib/developer-resources

整个数据结构如图:

很复杂是吧…来理一下逻辑:

一、载入基本实体信息

保证数据格式

因为neo4j是utf-8的,而CSV默认保存是ANSI的,需要用记事本另存为成UTF-8的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
// Create customers
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///customers.csv" AS row
CREATE (:Customer {companyName: row.CompanyName, customerID: row.CustomerID, fax: row.Fax, phone: row.Phone});

// Create products
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///products.csv" AS row
CREATE (:Product {productName: row.ProductName, productID: row.ProductID, unitPrice: toFloat(row.UnitPrice)});

// Create suppliers
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///suppliers.csv" AS row
CREATE (:Supplier {companyName: row.CompanyName, supplierID: row.SupplierID});

// Create employees
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///employees.csv" AS row
CREATE (:Employee {employeeID:row.EmployeeID,  firstName: row.FirstName, lastName: row.LastName, title: row.Title});

// Create categories
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///categories.csv" AS row
CREATE (:Category {categoryID: row.CategoryID, categoryName: row.CategoryName, description: row.Description});

USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///orders.csv" AS row
MERGE (order:Order {orderID: row.OrderID}) ON CREATE SET order.shipName =  row.ShipName;

注意:

执行两次会重复加载,注意!

“file:///customers.csv”中的’///’请注意!

CREATE (:Product {productName: row.ProductName)})其中:

  • Product为图ID,可以通过Match (customers) return customers进行查看;
  • row.ProductName的用法,跟dataframe差不多;
  • 类似dict,其中的productName为Key

其中有一个比较奇怪的表格,那就是最后一个:orders.csv

为了查询更快,可以建立索引:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE INDEX ON :Product(productID);
CREATE INDEX ON :Product(productName);
CREATE INDEX ON :Category(categoryID);
CREATE INDEX ON :Employee(employeeID);
CREATE INDEX ON :Supplier(supplierID);
CREATE INDEX ON :Customer(customerID);
CREATE INDEX ON :Customer(customerName);

给每个节点比较重要的ID字段建立索引。

不能同时执行,不然会报错:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Neo.ClientError.Statement.SyntaxError

同时添加一个约束:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE CONSTRAINT ON (o:Order) ASSERT o.orderID IS UNIQUE;

同时,如果需要修改其中一部分内容,可参考下面案例:

如果Janet is now reporting to Steven那么久可以如以下方式进行修改:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH (mgr:Employee {EmployeeID:5})
MATCH (emp:Employee {EmployeeID:3})-[rel:REPORTS_TO]->()
DELETE rel
CREATE (emp)-[:REPORTS_TO]->(mgr)
RETURN *;

定位到emp,把有关联的都先删掉DELETE,然后create新的关联。

延伸一:csv载入的两种方式(参考:3.3.20. LOAD CSV

同时csv载入的方式有两种:本地载入+在线文档载入:

在线载入:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
LOAD CSV FROM 'https://neo4j.com/docs/developer-manual/3.3/csv/artists.csv' AS line
CREATE (:Artist { name: line[1], year: toInteger(line[2])})

本地载入中有个Bug,就是怎么写地址,难道要这么写?file:///C:\Users\mattzheng\Desktop\categories.csv,显然是不对的。

那么本地的话,需要把内容放到固定的文件夹之中,一个叫import文件夹之中。

有可能在:在XXX\Neo4j\graph.db\import文件夹内

也有可能在其他东西,笔者当时的文件夹路径藏得很深是:C:\Users\matt\.Neo4jDesktop\neo4jDatabases\database-b82284eb-23ab-4a42-8a83-f13af055ecf0\installation-3.3.4\import

笔者也是误打误撞找到了这个链接,是通过报错提醒得到的:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///C:\\Desktop\\categories.csv" AS row
CREATE (:Customer {companyName: row.CompanyName, customerID: row.CustomerID, fax: row.Fax, phone: row.Phone});

然后他会报错:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
Couldn't load the external resource at: file:/C:\Users\matt\.Neo4jDesktop\neo4jDatabases\database-b82284eb-23ab-4a42-8a83-f13af055ecf0\installation-3.3.4\import\categories.csv

.

.


二、建立关联

2.1 order与 products/employees关联

order与 products and employees的关联:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///orders.csv" AS row
MATCH (order:Order {orderID: row.OrderID})
MATCH (product:Product {productID: row.ProductID})
MERGE (order)-[pu:PRODUCT]->(product)
ON CREATE SET pu.unitPrice = toFloat(row.UnitPrice), pu.quantity = toFloat(row.Quantity);
//同时,创立新的关联属性,on create的作用

USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///orders.csv" AS row
MATCH (order:Order {orderID: row.OrderID})
MATCH (employee:Employee {employeeID: row.EmployeeID})
MERGE (employee)-[:SOLD]->(order);

USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///orders.csv" AS row
MATCH (order:Order {orderID: row.OrderID})
MATCH (customer:Customer {customerID: row.CustomerID})
MERGE (customer)-[:PURCHASED]->(order);

toFloat(row.UnitPrice)当数据中为数值型,则需要规定关系类型。

文本型可以不用规定具体的类似是啥。

MATCH (order:Order {orderID: row.OrderID})的意思为将图名称Order赋值为order,同时选中orderID=row.OrderID这些内容;

pu:PRODUCT中,pu代表关系的统称;PRODUCT代表关系的名称

2.2 products,suppliers,categories关联

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///products.csv" AS row
MATCH (product:Product {productID: row.ProductID})
MATCH (supplier:Supplier {supplierID: row.SupplierID})
MERGE (supplier)-[:SUPPLIES]->(product);

USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///products.csv" AS row
MATCH (product:Product {productID: row.ProductID})
MATCH (category:Category {categoryID: row.CategoryID})
MERGE (product)-[:PART_OF]->(category);

2.3 employees之间的关联

在employees构建 ‘REPORTS_TO’关系来表达上下级关系。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
USING PERIODIC COMMIT
LOAD CSV WITH HEADERS FROM "file:///employees.csv" AS row
MATCH (employee:Employee {employeeID: row.EmployeeID})
MATCH (manager:Employee {employeeID: row.ReportsTo})
MERGE (employee)-[:REPORTS_TO]->(manager);

那么最终就会生成如下的内容:


三、初级查询

来源于:From SQL to Cypher – A hands-on Guide

官方原文中还有跟sql的对比,比较了解sql的可以看原文。

查询一:单独查询两个关联表
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH (:Order)<-[:SOLD]-(e:Employee)
return *
查询二: product的价格,并排序:
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
match (p:Product)
return p.productName,p.unitPrice order by p.unitPrice DESC
limit 10;

逻辑:先从图数据库中定位p;order by 表示排序;limit 表 显示限制。

查询三:product 中’Chocolade’产品价格并排序:where、排序order使用
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 写法一:
match (p:Product)
where p.productName = 'Chocolade'
return p.productName,p.unitPrice order by p.unitPrice DESC limit 10;

# 写法二:
match (p:Product {productName : 'Chocolade'})
return p.productName,p.unitPrice order by p.unitPrice DESC limit 10;

写法一通过where来进行定位,写法二通过在match变量时,定义产品来进行产品定位。

查询四:product 中’Chocolade’以及’Chai’产品价格并排序:where、排序order使用
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
match (p:Product)
where p.productName IN ['Chocolade','Chai']
return p.productName,p.unitPrice order by p.unitPrice DESC limit 10;
查询五:条件筛选:where使用
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH (p:Product)
WHERE p.productName STARTS WITH "C" AND p.unitPrice > 100
RETURN p.productName, p.unitPrice;

意义为:选择p.productName中,首字母为’C’,同时unitPrice的价格大于100的范围内。

Indexing的使用

如果要加速某一列属性的查询,可以设置Index

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE INDEX ON :Product(productName);
CREATE INDEX ON :Product(unitPrice);
查询六:买了’Chocolade’的人有谁? :join用法

这边涉及四个表格:

  • Product产品表,productID;
  • Customer顾客表 CustomerID;
  • orders索引表,orderID + CustomerID
  • orders_Details索引表,orderID + productID //正确: MATCH (p:Product {productName:”Chocolade”})<-:PRODUCT-(:Order)<-:PURCHASED-(c:Customer) RETURN distinct c.companyName; //错误 //match后面,跟的是主表,主表不带关系[],此时主表为Product MATCH (c:Customer)-:PURCHASED RETURN distinct c.companyName //思考用法:用optional match之后为什么错误? match (c:Customer) where (p:Product {productName:”Chocolade”})<-:Product-(:Order)<-:PURCHASED-(c) return distinct c.companyName

这里笔者的思考是,为什么Product是主表,需要遵循逻辑关系,逻辑关系是Customer表->order表->Product表,而不是Product表反向。

思考用法:此时命令返回的是全部的c.companyName,而不是买了巧克力的,optional match也是一个根据关系生成变量步骤,不是添加约束的步骤;此时也不能用where,where后面跟的对变量的约束,而不能嫁接关系

查询七:我买了啥+买了几件?:统计功能

‘Drachenblut Delikatessen’买了啥,买了几件东西。

客户和订单之间的匹配成为可选匹配,这与外连接相当。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
//写法1+普通match写法
MATCH  (p:Product)<-[pu:PRODUCT]-(:Order)<-[:PURCHASED]-(c:Customer {companyName:"Drachenblut Delikatessen"})
RETURN p.productName, toInt(sum(pu.unitPrice * pu.quantity)) AS volume
ORDER BY volume DESC;

//写法2+OPTIONAL MATCH
MATCH (c:Customer {companyName:"Drachenblut Delikatessen"})
OPTIONAL MATCH (p:Product)<-[pu:PRODUCT]-(:Order)<-[:PURCHASED]-(c)
RETURN p.productName, toInt(sum(pu.unitPrice * pu.quantity)) AS volume
ORDER BY volume DESC ;

OPTIONAL MATCH在我看来更多的还是赋值操作,而且可以在match写不下的时候,补充。

写法二,match先定义变量,然后在OPTIONAL MATCH后面补充连接关系。

其中:toInt()整数、sum()求和;AS volume生成新一列列名为’volumne’

查询八:雇员ID计数
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH (:Order)<-[:SOLD]-(e:Employee)
RETURN e.employeeID,count(*) AS cnt ORDER BY cnt DESC LIMIT 10

按照e.employeeID,进行分类count(*)计数。

e.employeeID

cnt

“4”

156

“3”

127

“1”

123

查询九:内容返回list/array格式
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH (o:Order)<-[:SOLD]-(e:Employee)
RETURN collect(e.lastName)

collect 将内容聚合成 (list,array)

.


四、高级查询

查询复杂度较大。来源于:Tutorial: Import Data Into Neo4j

查询一:Which Employee had the Highest Cross-Selling Count of ‘Chocolade’ and Which Product?

查询语句为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH (choc:Product {productName:'Chocolade'})<-[:PRODUCT]-(:Order)<-[:SOLD]-(employee),
      (employee)-[:SOLD]->(o2)-[:PRODUCT]->(other:Product)
RETURN employee.employeeID, other.productName, count(distinct o2) as count
ORDER BY count DESC
LIMIT 5;

:PRODUCT-(:Order)代表的是:[]代表着关系名称;()代表着图名称;

第一条逻辑:(employee)-(:Order)-(choc:Product),定位到employee生产了叫Chocolade的product

第二条逻辑:(employee)-()-(other:Product),定位到的雇员生产了哪些其他Product(所有的)

查询二:How are Employees Organized? Who Reports to Whom?
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH path = (e:Employee)<-[:REPORTS_TO]-(sub)
RETURN e.employeeID AS manager, sub.employeeID AS employee;

一个简单的模式,寻找Employee关系中REPORTS_TO的Employee。此时e代表雇主,sub代表雇员。

请注意,5号员工有人向他报告,但他也向2号员工报告。

这里有一个逻辑是:雇员、雇主都在Employee库中,所以要以REPORTS_TO关系为切入点。

查询三:Which Employees Report to Each Other Indirectly?

比查询二更深入一些,间接的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH path = (e:Employee)<-[:REPORTS_TO*]-(sub)
WITH e, sub, [person in NODES(path) | person.employeeID][1..-1] AS path
RETURN e.employeeID AS manager, sub.employeeID AS employee, CASE WHEN LENGTH(path) = 0 THEN "Direct Report" ELSE path END AS via
ORDER BY LENGTH(path);

第一步跟查询二的逻辑一样,在同一个Employee库汇总,查找关系为:REPORTS_TO的employee.

第二步,with用法,with从句可以连接多个查询的结果,即将上一个查询的结果用作下一个查询的开始,

(哈哈哈… 后面有点不明白,查完资料再补充…)

查询四:How Many Orders were Made by Each Part of the Hierarchy?
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
MATCH (e:Employee)
OPTIONAL MATCH (e)<-[:REPORTS_TO*0..]-(sub)-[:SOLD]->(order)
RETURN e.employeeID, [x IN COLLECT(DISTINCT sub.employeeID) WHERE x <> e.employeeID] AS reports, COUNT(distinct order) AS totalOrders
ORDER BY totalOrders DESC;
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018年04月08日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Matplotlib绘制六种可视化图表,值得收藏
可视化图表,有相当多种,但常见的也就下面几种,其他比较复杂一点,大都也是基于如下几种进行组合,变换出来的。对于初学者来说,很容易被这官网上众多的图表类型给吓着了,由于种类太多,几种图表的绘制方法很有可能会混淆起来。
double
2019/08/20
1.1K0
matplotlib入门
MATlAB是美国MathWorks公司出品的商业数学软件,用于数据分析、无线通信、深度学习、量化金融与风险管理、机器人,控制系统等领域。MATLAB在数值计算方面首屈一指,也是使用最广泛的科研绘图软件之一。优点:编程效率高 便于矩阵计算。缺点:循环效率低 封装性不好。
用户2225445
2022/11/12
4.4K0
matplotlib入门
Matplotlib从入门到精通02-层次元素和容器
参考: https://datawhalechina.github.io/fantastic-matplotlib/%E7%AC%AC%E4%B8%80%E5%9B%9E%EF%BC%9AMatplotlib%E5%88%9D%E7%9B%B8%E8%AF%86/index.html
用户2225445
2023/10/16
5230
Matplotlib从入门到精通02-层次元素和容器
12个最常用的matplotlib图例 !!
折线图(Line Plot):用于显示数据随时间或其他连续变量的变化趋势。在实际项目中,可以用于可视化模型性能随着训练迭代次数的变化。
JOYCE_Leo16
2024/03/19
5890
12个最常用的matplotlib图例 !!
深度学习基础之matplotlib,一文搞定各个示例
Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用 ,Matplotlib也是深度学习的常用绘图库,主要是将训练的成果进行图形化,因为这样更直观,更方便发现训练中的问题,今天来学习下,走起!!
香菜聊游戏
2021/10/19
1.6K0
深度学习基础之matplotlib,一文搞定各个示例
这40个Python可视化图表案例,强烈建议收藏!
不过有些小伙伴也会遇到不少问题,比如选择何种图表,以及如何制作,代码如何编写,这些都是问题!
小F
2021/09/14
4.4K0
Matplotlib 基础
Matplotlib 是一个 Python 绘图库,可以跨平台生成各种硬拷贝格式和交互式环境的出版品质数据。
iOSDevLog
2019/05/28
2K0
Python数据分析Matplotlib
1.2 使用matplotlib.pyplot中的annotate()函数标注文字
荣仔_最靓的仔
2021/02/02
3.6K0
Python数据分析Matplotlib
数据可视化基础与应用-03-matplotlib库从入门到精通01-05
本系列是数据可视化基础与应用的第03篇,主要介绍基于matplotlib实现数据可视化。
用户2225445
2024/03/21
9000
数据可视化基础与应用-03-matplotlib库从入门到精通01-05
探索数据科学与机器学习中的视觉表达【Matplotlib实战指南】
在数据科学和机器学习领域,数据可视化是一项至关重要的任务。它不仅可以帮助我们更好地理解数据,还能够有效地传达数据的洞察和趋势。而在 Python 中,Matplotlib 是一个强大而灵活的工具,可以用来创建各种类型的数据可视化图表,从简单的折线图到复杂的热图都能胜任。
一键难忘
2024/06/26
2480
Python数据可视化大全:Matplotlib、Seaborn、Bokeh和Plotly实战指南
数据可视化是数据科学和分析中不可或缺的一部分,而Python中的Matplotlib和Seaborn库为用户提供了强大的工具来创建各种可视化图表。本文将介绍如何使用这两个库进行数据可视化,并提供一些实用的代码示例和解析。
一键难忘
2024/04/18
2K0
数据分析 ——— matplotlib基础(二)
在上面的三个面板中分别画出了sin,cos图,前面两个参数分别为x轴, y轴数据。ax2的第三个参数“go--”是matlab风格的绘图,ax3上给出了点的标记maker,这一块是可以自己定义的,可以参考我上一篇文章数据分析 ——数据可视化matplotlib(一)。
andrew_a
2019/09/26
8380
数据分析 ——— matplotlib基础(二)
趋势(一)利用python绘制折线图
折线图用于在连续间隔或时间跨度上显示定量数值,最常用来显示趋势和关系(与其他折线组合起来)。折线图既能直观地显示数量随时间的变化趋势,也能展示两个变量的关系。
HsuHeinrich
2024/11/23
2200
趋势(一)利用python绘制折线图
Matplotlib 学习笔记
在 matplotlib 中,整个图像为 Figure ,而一个 Figure 中可以有多个 axes。
zucchiniy
2020/05/22
5460
Python之Matplotlib绘图
Python中一个重要的绘图库Matplotlib,它可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。Matplotlib可用于Python脚本,Python和IPython shell,Jupyter笔记本等。
剑指工控
2021/11/09
1.5K0
Python之Matplotlib绘图
Matplotlib_Study01
from matplotlib.font_manager import FontProperties
Echo_Wish
2023/11/30
2180
Matplotlib_Study01
使用Matplotlib对数据进行高级可视化(基本图,3D图和小部件)
可视化在当今世界许多领域的结果传播中发挥着重要作用。如果没有适当的可视化,很难揭示结果,理解变量之间的复杂关系并描述数据的趋势。
代码医生工作室
2019/06/21
3.9K0
使用Matplotlib对数据进行高级可视化(基本图,3D图和小部件)
数据分析画图:50道练习玩转matplotlib
Matplotlib 是 Python 的绘图库。它可与 NumPy 一起使用,提供了一种有效的 MatLab 开源替代方案,也可以和图形工具包一起使用。和Pandas、Numpy并称为数据分析三兄弟。友情提示:代码虽好,自己动手才算学到。
Datawhale
2020/02/21
8790
Python 高级绘图:从基础到进阶的可视化实践
在 Python 中,我们可以使用多种库来进行绘图,其中 matplotlib 是一个非常强大的绘图库。以下将介绍一些高级的绘图技巧和代码实现:
用户10354340
2024/10/07
940
基于Matplotlib的高级数据可视化技术与实践探索
文章链接:https://cloud.tencent.com/developer/article/2466769
一键难忘
2024/11/21
2730
推荐阅读
相关推荐
Matplotlib绘制六种可视化图表,值得收藏
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验