首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >一日一技:让emoji表情变消失

一日一技:让emoji表情变消失

作者头像
青南
发布2019-03-19 16:03:48
发布2019-03-19 16:03:48
1.9K0
举报
文章被收录于专栏:未闻Code未闻Code

当我们从微博或者推特上爬下数据以后,里面可能包含了emoji表情。这种表情本书就跟汉字一样是普通的字符,并不是图片。

如果你需要把数据存入MySQL中,这些emoji表情可能会导致插入失败,即时你已经把编码设置为 utf8mb4也不行。

此时,就需要使用正则表达式从字符串中移除emoji表情。

大部分的emoji表情对应的Unicode码分布在如下4个范围内:

  1. "\U0001F600-\U0001F64F" "\U0001F300-\U0001F5FF"
  2. "\U0001F680-\U0001F6FF"
  3. "\U0001F1E0-\U0001F1FF"

因此可以使用Python正则表达式的 sub方法把emoji去掉。

  1. import re text = '不要说话?,你知道我在想什么?' clear_text=re.sub('["\U0001F600-\U0001F64F\U0001F300-\U0001F5FF\U0001F680-\U0001F6FF\U0001F1E0-\U0001F1FF"]', '', text) print(clear_text)

运行效果如图所示

不过需要注意的是,上面这个范围并不完全,例如:? 这个表情就无法被过

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未闻Code 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档