我有一个文本,它包含很多中间有文本的方括号。为了去掉这些括号(和文本),我写了这个:
import re
def generalDatacleaning(mystring):
result = re.sub(r'[]', '', mystring)
print(result)
然而,在一个示例句子上运行它会得到"ete“(括号的内侧):
test = "[ete], this is a text"
generalDatacleaning(test)
要删除文本部分,我应该做什么更改?
我使用字符串来清理一些包含单个字符的句子,例如:
sentence <- c('this is a z test', 'remove this b from here')
我想从下面的句子中删除z和b:
c('this is a test', 'remove this from here')
我尝试过这样的东西:
gsub('"([\\b[a-zA-Z0-9]{1,1}\\b])"', '', sentence)
但它不起作用。
我的工作是文本挖掘。我从一个文本文件中提取了23个句子,以及从同一个文本文件中提取的6个常用单词。
对于频繁出现的单词,我创建了一维数组,该数组显示单词和它们发生在哪个句子中。在那之后,我用交集来显示哪个单词与句子中的其他每一个单词一起发生:
OccursTogether = cell(length(Out1));
for ii=1:length(Out1)
for jj=ii+1:length(Out1)
OccursTogether{ii,jj} = intersect(Out1{ii},Out1{jj});
end
end
celldisp(OccursT
此函数接受一个字符串文本,并返回一个包含字符串列表的列表,该列表为字符串文本中的每个句子提供一个列表。
句子由一个字符串“、"?”或“!”分隔。我们忽略了其他标点符号分隔句子的可能性。所以“X先生”将变成两个句子,而‘不要’将是两个单词。
例如,文本是
Hello, Jack. How is it going? Not bad; pretty good, actually... Very very
good, in fact.
该函数返回:
“你好”、“杰克”、“如何”、“是”、“它”、“去”、“不”、“坏”、“漂亮”、“好”、“实际上”、“非常”、“非常”、“很好”、“在”中
我想找到与大字符串中的文本链接。我正在寻找这样的模式:例如,[text](url) [Check it on stackoverflow](https://stackoverflow.com/) 我有正则表达式,它得到了很好的结果,但当这个模式被括在括号中时会出现问题,比如 This is our forum ([Check it on stackoverflow](https://stackoverflow.com/) maybe you can help) 正则表达式:/\[(.*)\](\(.*.*?\))/ 我确实需要像.*stackoverflow.*一样把句子放在.*之间。 是否
如果我有一个搜索条件:She likes to watch tv
包含一些句子的输入文件text.txt,例如:
I don't know what to do. She doesn't know that it's not good for her health. She likes to watch tv but really don't know what to say. I don't blame her, but it's not her fault. This was just a test text. This is the end
我想从网页中检索文本-我首选的语言是Python -这样句子就不会在句子中间被换行符打断,就像这样: and then the community
decided to invest in
public parks for the
benefit of the citizens. 我尝试过从lynx和w3m转储网页,但是它把句子分成了几行。 我刚刚尝试使用Beautiful Soup的.get_text()方法,该方法应该从包含文本的元素中提取连续的字符串,例如<p>标记,但令我惊讶的是,它仍然将句子分成换行符。也许这与HTML中已经存在的换行符有关,或者文本中嵌入了诸如链接之类
我有一个字符串,比方说:
<lic><ic>This is a string</ic>, welcome to my blog.</lic>
我想使用sed去掉<ic>和</ic>标记,以及文字标记<lic>和</lic>
完成此操作的最快方法是什么?我对sed很陌生。在awk中如何做到这一点呢?我知道awk对于列式文本要好得多,所以我更倾向于学习如何使用sed。
任何帮助都会被感谢,提前谢谢!
我找到了这方面的几个主题,并找到了这个解决方案:
sentence=re.sub(ur"[^\P{P}'|-]+",'',sentence)
这应该会删除除‘之外的所有标点符号,问题是它还会将句子中的其他所有内容都去掉。
示例:
>>> sentence="warhol's art used many types of media, including hand drawing, painting, printmaking, photography, silk screening, sculpture, film, an
除了使用正则表达式的一些例外情况外,我希望从句子中删除某些单词或字符。
例如,我有一个字符串this is [/.] a string [ra] with [/] something,我想删除[ra],[/.],而不是[/]。
我用:
m = re.sub('\[.*?\]','',n)
它工作得很好,我如何才能保留这个-> [/]
我有一组句子。每个句子都是richtextbox`s的FlowDocument的内联属性中的一个新的Run对象。每个句子都有颜色。
var paragraph = new Paragraph();
foreach (var sentence in Sentences)
{
....
paragraph.Inlines.Add(new Run { Text = sentence, Background = new SolidColorBrush(color) });
}
我试着制作一个以感叹号、问号结尾的句子的频次直方图,以及以文本中的一个点结尾的句子(我只是计算了文本中这些字符的数量)。文本从文件中读取。我编写的代码如下所示:
import matplotlib.pyplot as plt
text_file = 'text.txt'
marks = '?!.'
lcount = dict([(l, 0) for l in marks])
for l in open(text_file, encoding='utf8').read():
try:
lcount[l.upp
我的程序必须创建另一个名为"CTL.py“的文件,其中包含文本文件大写中的每个单词,以及以"#”结尾的每个句子。我必须使用标题()。我的文本文件中有131行。我的思路是使用一个循环来读取和大写文本中的每一个字母,以及如何在readline()命令之后添加'#‘。对怎么做有什么想法吗?
def main():
myFile = open('/Users/Chandlers_Mac/Downloads/Lab9-2.txt', 'r')
for i in range(131):
data = myFile.r
问题4:删除案文中的所有参考编号(包括括号)。它应该删除以下内容:8等。在删除它们之前,打印这些参考编号的列表,然后打印如下:有{ list}引用号要删除。我的代码如下:
import re
with open('macOS.txt', 'r') as f:
content = f.read()
temp = re.sub('<[^>]*>', '', content)
print(f'There are {len(temp)} references numbers to be deleted.
我正在尝试编写一个正则表达式,它将匹配两个特定单词之间的所有内容,但也将丢弃特定模式的所有子字符串。
例如,如果给定的句子是:'START this is *9-11* a dummy 3-*1句子END',我想写一个正则表达式来得到答案:这是一个虚拟句子
如果我只想匹配单词START和END之间的所有内容,我可以编写正则表达式: START(.*?)END
但我也希望丢弃以数字、连字符和*的任意组合开头并以结尾的所有模式。
我该怎么做?
我要删除方括号内的所有词语以及方括号本身。例如,
text = c('[Verse 1]', '[Verse 1: Dua Lipa]', '[Corus]', '[Corus: Ann Marie & Ed Sheeran]')
和上面一样,括号内的单词长度不是恒定的。因此,我需要一个函数,可以识别[和]的位置,以便擦除中间的所有单词、数字和符号。有什么功能可以做到吗?
我有一堆信息。一个非常大的文本文件,大约有200k行。这个文本文件是通过合并数千页的PDF文本(显然是通过OCR提取的)构建的。这些信息是来自医学委员会的“会议记录”。在此信息中是关键信息的重复出现模式,例如“
##-## (this is a numbered designation of the 'case')
ACTION: [.....] (this is a sentence that describes what procedure or action is being taken with this 'case')
DECISION [..