我正尝试解析由curl请求返回的JSON数据,具体做法如下:
curl 'http://twitter.com/users/username.json' |
sed -e 's/[{}]/''/g' |
awk -v k="text" '{n=split($0,a,","); for (i=1; i<=n; i++) print a[i]}'
上述方法将JSON数据拆分为各个字段,例如:
% ...
"geo_enabled":false
"friends_count":245
"profile_text_color":"000000"
"status":"in_reply_to_screen_name":null
"source":"web"
"truncated":false
"text":"My status"
"favorited":false
% ...
如何打印特定的字段(由-v k=text表示)?
有许多工具专门设计用于通过命令行操作JSON,使用这些工具比使用Awk要容易得多,也更可靠。比如jq
:
curl -s 'https://api.github.com/users/lambda' | jq -r '.name'
你也可以使用已经安装在你系统上的工具,比如使用Python的json
模块,这样可以避免额外的依赖,同时仍然拥有一个合适的JSON解析器。
以下假设你希望使用UTF-8编码,原始JSON应该使用这种编码,这也是大多数现代终端使用的编码:
Python 3:
curl -s 'https://api.github.com/users/lambda' | \
python3 -c "import sys, json; print(json.load(sys.stdin)['name'])"
Python 2:
export PYTHONIOENCODING=utf8
curl -s 'https://api.github.com/users/lambda' | \
python2 -c "import sys, json; print json.load(sys.stdin)['name']"
标准的POSIX/Unix规范的shell是一个非常有限的语言,它不包含表示序列(列表或数组)或关联数组(在某些其他语言中也被称为哈希表、映射、字典或对象)的功能。这使得在可移植的shell脚本中表示解析JSON的结果有些棘手。有一些比较巧妙的方法可以做到这一点,但如果键或值包含某些特殊字符,许多方法可能会失效。
Bash 4及更高版本、zsh和ksh支持数组和关联数组,但这些shell并不普遍可用(由于从GPLv2更改为GPLv3,macOS停止更新Bash到Bash 3,而许多Linux系统默认没有安装zsh)。你可以编写一个在Bash 4或zsh中工作的脚本,其中之一在大多数macOS、Linux和BSD系统上都是可用的,但编写一个适用于这种多语言脚本的shebang行将非常困难。
最后,用shell编写一个功能齐全的JSON解析器将形成一个相当大的依赖项,你不如直接使用现有的依赖项,如jq或Python。实现一个良好的JSON解析器并不是一两行代码,甚至不是一个简短的五行片段就能完成的。
确实可以利用这些工具对已知结构和已知格式(例如每行一个键值)的JSON数据进行快速提取。在其他回答中已经给出了多个关于如何做到这一点的建议示例。
然而,这些工具是为基于行或基于记录的格式设计的;它们并不适用于递归解析配对的分隔符以及可能存在的转义字符。
因此,使用awk/sed/grep的这些快速而简易的解决方案很可能较为脆弱,如果输入格式的某些方面发生变化,比如压缩空白字符、在JSON对象中增加额外的嵌套层级,或者字符串内的转义引号,这些方案就可能会失效。一个足够健壮、能处理所有JSON输入而不崩溃的解决方案也会相对较大且复杂,因此与添加对jq或Python的额外依赖相比,区别并不会太大。
我曾经不得不处理由于shell脚本中不良输入解析而导致大量客户数据被删除的情况,所以我从不推荐可能在这种方式上脆弱的快速和粗鲁的方法。我强烈推荐只使用经过测试的现有JSON解析器。