python
使用python来提取省市区信息
我先附上学习的链接和图片,后面再进行详细说明,如下:
今天我们学习的一个模块,叫做cpca(cpca是chinese province city area的缩写),是一个用于识别简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块.
安装说明:
目前仅支持python3+
pip install cpca
注:cpca是chinese province city area的缩写
常见安装错误:
有的朋友在使用的时候会出现如下错误:
ModuleNotFoundError: No module named 'jieba'
这个时候则需要手动使用pip install jieba命令安装这个依赖库即可,最好也把pandas库装上,同样:
pip install jieba
pip install pandas
我们先用代码来举例说明一下,比如我要将上面的一行地址转换为下面的格式,该如何操作呢?
需求是按照省 |市 |区 |地址一一对应?
["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区"]
transform
|省 |市 |区 |地址 |
|上海市|上海市|徐汇区|虹漕路461号58号楼5楼 |
|福建省|泉州市|洛江区|万安塘西工业区 |
那么,我们就用cpca模块来实现一下:
import cpca #导入模块
location_str = ["徐汇区虹漕路461号58号楼5楼", "泉州市洛江区万安塘西工业区", "朝阳区北苑华贸城"]
df = cpca.transform(location_str)
print(df)
输出信息:
省 市 区 地址
0 上海市 上海市 徐汇区 虹漕路461号58号楼5楼
1 福建省 泉州市 洛江区 万安塘西工业区
2 北京市 北京市 朝阳区 北苑华贸城
看上去是不是很直观?一目了然
另外,cpca.transform返回的是一个 Pandas 的 DataFrame 对象,我们可以调用它的.to_csv()方法直接生成 csv 文件。如果我们再安装一个第三方库openpyxl,还可以直接生成 Excel 文件:
先安装openpyxl模块:
pip install openpyxl
如下图所示:
附上参考资料,大家可以上网看看:
GitHub -
DQinYuan/chinese_province_city_area_mapper: 一个用于提取简体中文字符串中省,市和区并能够进行映射,检验和简单绘图的python模块:
https://github.com/DQinYuan/chinese_province_city_area_mapper
还等什么?
赶快动手去试试吧!
欢迎在下方留言,
谢谢关注.
领取专属 10元无门槛券
私享最新 技术干货