前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >10个Python字符串处理技巧和窍门(1)

10个Python字符串处理技巧和窍门(1)

作者头像
计算机与AI
发布2020-12-14 15:23:51
1.3K0
发布2020-12-14 15:23:51
举报
文章被收录于专栏:计算机与AI

追求文本分析路径,但不知道从哪里开始?尝试使用此字符串处理入门,首先了解在基本级别上使用Python操纵和处理字符串的知识。

自然语言处理和文本分析是当前研究和应用的热门领域。这些领域需要各种特定的技能和概念,在进行有意义的练习之前,需要透彻理解。但是,在此之前,必须进行基本的字符串操作和处理。

我认为,有两种不同类型的广泛的计算字符串处理技能需要掌握。首先是正则表达式,这是一种基于模式的文本匹配方法。

另一种独特的计算字符串处理技能是能够利用给定编程语言的标准库进行基本的字符串操作。因此,本文是简短的Python字符串处理入门,适用于那些追求更深入的文本分析职业的人。

请注意,有意义的文本分析超出了字符串处理的范围,这些更高级技术的核心可能不需要您经常自己操作文本。但是,文本数据预处理是成功的文本分析项目的重要且耗时的部分,这些上述字符串处理技巧在这里将是无价的。从根本上理解文本的计算处理在概念上对于理解更高级的文本分析技术也非常重要。

以下许多示例都使用Python标准库字符串模块,因此方便参考是一个好主意。

1.剥离空格

剥离空格是基本字符串处理要求。您可以使用lstrip()方法(左)去除前导空格,使用rstrip()(右)去除尾随空格,并使用去除前导和尾随strip()

代码语言:javascript
复制
s = '   This is a sentence with whitespace.       \n'

print('Strip leading whitespace: {}'.format(s.lstrip()))
print('Strip trailing whitespace: {}'.format(s.rstrip()))
print('Strip all whitespace: {}'.format(s.strip()))
代码语言:javascript
复制
Strip leading whitespace: This is a sentence with whitespace.       

Strip trailing whitespace:    This is a sentence with whitespace.
Strip all whitespace: This is a sentence with whitespace.

有兴趣剥离除空格以外的其他字符吗?相同的方法很有用,可以通过传入要剥离的字符来使用。

代码语言:javascript
复制
s = 'This is a sentence with unwanted characters.AAAAAAAA'

print('Strip unwanted characters: {}'.format(s.rstrip('A')))
代码语言:javascript
复制
Strip unwanted characters: This is a sentence with unwanted characters.

format()如有必要,请不要忘记查看字符串文档。

(https://docs.python.org/3/library/stdtypes.html#str.format)

2.分割字符串

将字符串拆分为较小的子字符串列表通常是有用的,并且在Python中使用该split()方法可以轻松实现。

代码语言:javascript
复制
s = 'MOOC is a fantastic resource'

print(s.split())
代码语言:javascript
复制
['MOOC', 'is', 'a', 'fantastic', 'resource']

默认情况下,split()在空白处分割,但也可以传入其他字符序列。

代码语言:javascript
复制
s = 'these,words,are,separated,by,comma'
print('\',\' separated split -> {}'.format(s.split(',')))

s = 'abacbdebfgbhhgbabddba'
print('\'b\' separated split -> {}'.format(s.split('b')))
代码语言:javascript
复制
',' separated split -> ['these', 'words', 'are', 'separated', 'by', 'comma']
'b' separated split -> ['a', 'ac', 'de', 'fg', 'hhg', 'a', 'dd', 'a']

3.将列表元素连接到字符串中

需要上述操作的对立面吗?您可以使用join()方法将列表元素字符串连接到Python中的单个字符串中。

代码语言:javascript
复制
s = [ 'MOOC','is','a','fantastic','resource' ] 

print(''. join(s))
代码语言:javascript
复制
MOOC is a fantastic resource

那不是事实!并且,如果您想将列表元素之间使用空格以外的其他内容进行联接?这件事可能有点陌生,但也很容易完成。

代码语言:javascript
复制
s = ['Eleven', 'Mike', 'Dustin', 'Lucas', 'Will']

print(' and '.join(s))
代码语言:javascript
复制
Eleven and Mike and Dustin and Lucas and Will

4.反转字符串

Python没有内置的字符串反向方法。但是,由于可以像列表一样对字符串进行切片,因此可以以与列表元素可以反转的简洁方式进行反转。

代码语言:javascript
复制
s = 'Kaggle'

print('The reverse of Kaggle is {}'.format(s[::-1]))
代码语言:javascript
复制
The reverse of KDnuggets is: elggaK

5.转换大写和小写

大小写之间的转换可以用upper()lower()swapcase()方法。

代码语言:javascript
复制
s = 'Kaggle'

print('\'Kaggle\' as uppercase: {}'.format(s.upper()))
print('\'Kaggle\' as lowercase: {}'.format(s.lower()))
print('\'Kaggle\' as swapped case: {}'.format(s.swapcase()))
代码语言:javascript
复制
'Kaggle' as uppercase: KAGGLE
'Kaggle' as lowercase: kaggle
'Kaggle' as swapped case: kAGGLE

这是系列文章的第一篇,下一篇文章我将继续更新剩下的五个技巧。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机与AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.剥离空格
  • 2.分割字符串
  • 3.将列表元素连接到字符串中
  • 4.反转字符串
  • 5.转换大写和小写
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档