我需要把一段话分成几个句子。所以这意味着在每个句号之后拆分,但我也必须考虑到句子可以包含缩写,例如Anniv。林诺尔。我做了一个正则表达式,使用lookbehind来匹配句点之前的任何缩写。我按照如下的缩写列表动态创建正则表达式:
String regex = "(?<!abbrev1)(?<!abbrev2)\\.";
//abbrev 1 and abbrev 2 are just examples the regex I use is much longer
//Then I split the paragraph
parag
我试图创建一个函数来计算任何一个或多个句子中的单词数和单词的平均长度。我似乎不能把字符串分成两个句子,放在一个列表中,假设这个句子有句号并结束这个句子。
["Haven't you eaten 8 oranges today", "I don't know if you did"]The 问号和感叹号应替换为句点,以便在列表中识别为新句子。例如::"Haven't you eaten 8 oranges today? I don't know if you did." in :该示例的平均长度为44/12 = 3.
我已经看到了很多与我的问题相关的问题,但我似乎仍然无法让我的具体示例发挥作用。我在一个由几个句子串在一起的文件中有一些数据。我试图将句子分成一个列表,每个句子都是列表中的一个元素。但是,当我拆分一个句点后跟一个空格时,我会丢失列表中所有元素中的句号(除了最后一个元素)。我从这个开始: text = "This sentence. And this one. One more." 所需输出: ["This sentence.", "And this one.", "One more."] 目前我是通过做text.split(
我有以下几段:
<p>This is a first paragraph.</p>
<p>This is a second</p>
<p>A third paragraph is here.</p>
<p>And a fourth</p>
第二和第四段在句子末尾没有句号。有没有办法选择这些段落,然后用jquery/javascript删除它们?
我正在尝试使用一个循环,在我添加到.txt文件中的句子中添加一个句号。
但是,每次运行循环时,我都会看到我的结果以每次添加句点的代码结束。
sentences = input_file.read()
matches = re.finditer("('The dog is happy",sentences,re.MULTILINE)
if matches:
for match in matches:
temp_match = match[1]
sentences = sentences.replace(tem
LaTeX尝试猜测句点是否结束了一个句子,在这种情况下,它会在句子后面加上额外的空格。这里有两个错误猜测的例子:
I watched Superman III. Then I went home.
(“超人3”后面的空间太小了。)
After brushing teeth etc. I went to bed.
(“etc.”后面的空格太多。)
请注意,您在LaTeX源代码中使用了多少空格并不重要,因为LaTeX会忽略这些空格。
我在这方面真的是新手,我以前只见过它,这是我第一次尝试。我正在尝试获取任何以"Photo“开头并以句点结尾的句子。我想我不明白如何用‘’结束正则表达式搜索。这就是我到目前为止得到的:
(^[Photo]{5}[a-zA-Z0-9\w\W]*[\.]$)
我希望它能够从这个字符串中提取以照片开头的句子:
This is some text. Photo is by you. Some more text. Photo created by me. Some more text. Photo via the internet.
编辑-我正在做的是写一个php函数,它会拉出以"pho
所以我有一段文字:
Presedintele al Miscarii Populare,Eugen Tomac,sustine ca燃料沉积公司strada Pajurei,第1区,spatele acestei actiuni s-ar afla &,Tomac Mediafax。& &,a scris Eugen Tomac pe Facebook.Tomac a mai,intr-o宣告性de presa,ca locuitorii din strada Pajura ar fi primit mesaje,在numele PMP中。&,一株麦芽,一种麦
我正在寻找从包含不同类型标点符号的段落中提取句子的方法。首先,我用了SpaCy's Sentencizer。
示例输入python列表abstracts:
["A total of 2337 articles were found, and, according to the inclusion and exclusion criteria used, 22 articles were included in the study. Inhibitory activity against 96% (200/208) and 95% (312/328) of the pathoge
我有一些文本,在Python中有一个带有阅读模块的任务:“查找作为句子开头词的字典。
换句话说,如果一个单词在句子的开头,就把它包含在字典中。“这个文件是.txt,它包含大约10-15段。
你对如何改进它有想法吗?
f = open("1.txt", encoding="UTF-8")
words = [line.split(maxsplit=1)[0] for line in f if line.strip()]
for line in f:
if line.strip():
words.append(line.split(maxspl
我试图使用Regex提取标题、大写短语和句子中出现的单词。
迄今所作的努力:
(?:[A-Z][a-z]+\s?)+
当应用于下面的示例句子时,这个regex代码会找到那些显示为粗体的单词。但是我需要忽略像这样的单词和是否(句子开头)。
例句:
this 是一个示例语句,用于检查该代码的实值。,无论是,还是,,都取决于结果。
Expectation:
这是一个示例语句,用于检查此代码的真实值。它是工作还是不工作,取决于结果。
有用代码:
import regex as re
text='This is a Sample Sentence to check the Real Va
我需要提取以点'.'结尾的句子,但不要在' ...' (空白和三个点)中提取句子的结尾。
示例:
I love you.
I love you too ...
我想要匹配第一句而不是第二句。
I图像python样式伪代码:
for string in strings:
checker1 = (string == .)
if checker:
checekr2 = (prev_string(string) != blank)
if checker2:
extract_all_strings()
我怎样才能找到结尾有问号的所有句子?特别是紧跟在.之后的字符,并包括?。注意:,在我想要捕捉的字符之间会有不同的字符,例如\n...etc
此链接有助于
示例案文:
now"? She said, "I feel great". Then I said to her, "All right, would
you mind leaving the room for a minute or two? This is part of the
exercise". So she did. While she was away, I said to the o
移除标点符号有很多可用的地方,但我似乎找不到任何东西保留它。
如果我这样做了:
from nltk import word_tokenize
test_str = "Some Co Inc. Other Co L.P."
word_tokenize(test_str)
Out[1]: ['Some', 'Co', 'Inc.', 'Other', 'Co', 'L.P', '.']
最后一个“。被推入自己的标记中。然而,如果最后还有一个词,那就是“最后一个”。保存如下
看着,DEFAULT_BOUNDARY_REGEX = "\\.|[!?]+";让我认为文本会被分割成基于.、!和?的句子。
但是,如果我将字符串D R E L I N. Okay.作为输入传递,例如使用命令行接口:
java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP
-annotators tokenize,ssplit -file test.txt
它只返回一个句子D R E L I N. Okay.,而不是两个句子['D R E L I N.
我使用Emacs来写研究论文(其中包括很多文本..对)。我总是想从一个句号(.)到另一个句点-基本上,从句子的开头移动到句子的结尾(反之亦然)。我没有找到任何这样做的键映射(M-a,M-e,C-x C-t不是我需要的)。我没有太多使用elisp的经验。如果有人能指出我和现有的键映射或函数,我将不胜感激。
提亚
S.
假设我有一个字符串,比如
s=""" Bob sent some money to Ana. It was 10.23 dollars. Ana thanked him.
"""
我希望输出是
Bob sent some money to Ana. It was dollars. Ana thanked him.
所以基本上只保留了标志句子结束的字母和句号。删除数字之间的非字母字符和句号。
我正试着用
re.sub(r"[^A-za-z.\n]"," ",s)
但这显然会将这段时间保持在no之间。并给出