有一个包含标准格式句子的列。我试图检索句子中包含特定关键字的行。
数据是这样的
***Damage, Location, Near Location***
Corrosion, Bonnet, Left Head light
Corrosion, Bonnet, Right Head light
Corrosion, Left Door, Near Handle
Scratch, Right Door, Near Handle
Dent, Right Door, Near Handle
Dent, Bonnet, Left Head light
list1=[corrosion,
例如,该列包含一个完整的产品descritpion (例如黄色皮革运动鞋),我希望根据列表(例如‘黄色’,‘运动鞋’)选择该列。我尝试过这样的方法,但显然没有用:)
list_to_check = ['yellow', 'sneaker']
df_filtered = df(all(n in df['Column_To_Filter'] for n in list_to_check))
新的df_filtered应该只包括列中所有单词都包含在列的同一行值中的行(例如,如果该列只包含其中一个单词,我不希望显示该列?)
有什么想法吗?
提前感谢!
我有一个数据框架,在一列中,我有一个全文,其中有多个非常长的句子。我使用NLTK对文本进行标记化,但现在我需要确保只从给定的完整单词的长列表中提取包含任意单词的句子。我写了下面的代码,但它的问题是,它不是作为一个整体检查文本中的单词,而是例如在搜索列表中找出一个给定的单词,比如'tic',它选择一个包含单词‘统计’的句子。
symptoms = [long list of words ~ about 100]
new_df = df[df['Sentence'].str.contains('|'.join(symptoms))]
就在这段代码之上
我有一个句子列表,我想要识别其中至少没有一个单词与另一个列表中包含的单词相匹配的所有句子。我尝试使用列表理解来实现这一点,如下所示 [sentence for sentence in sentences if word_list is not in sentence] 这是不起作用的,因为我正在询问单词列表中的单词是否不在句子中。 我需要的关键功能是能够识别所有在单词列表中没有与单词匹配的单词的句子。我正在寻找ASR错误,我有一个单词列表,其中至少有一个必须在每个句子中或该句子有ASR错误。 我可以弄清楚如何使用grep -v并通过管道将它们连接在一起,但我想用Python语言来实现。
我想知道如何从特定的数据框架中计算出列表中的唯一单词的数量。例如,假设我接下来有一个list = ['John','Bob,'Hannah'],我有一个数据框架,其中有一个名为句子的列
df =
['sentences']
0 Bob went to the shop
1 John visited Hannah
2 Hannah ate a burger
我想要的输出是:
John 1
Bob 1
Hannah 2
如何计算数据集中任意行中任何给定句子中的唯一名称?
我有一个包含句子和单词列表的熊猫系列。我想返回列中包含所有单词的所有条目
例如:
sample_list = ['dog', 'cat', 'rat']
Series
0 "I have a dog, a cat, and a rat."
1 "I only have a dog."
2 "I only have a cat."
在本例中,将只返回第一行。
我目前正在对列表中的每个单词使用.str.contains()函数。有没有更有效的方法来做到这一点?
谢谢。
我有一个dataframe,我想在其中将函数传递给特定的列:
希望根据某些要求更改“Channel”列值:
if 'Facebook' or 'FacebookPaid' or 'FacebookFree' in df['utm_Campaign']:
df['Channel'] = 'FB'
elif 'Newsletter' in df['utm_Campaign']:
df['Channel'] = 'Email
我有一个dataframe,它有三列,如下所示:
index string Result
1 The quick brown fox jumps over the lazy dog
2 fast and furious was a good movie
我有两个单词列表(),如下:
list1 ["over", "dog", "movie"]
list2 ["quick", "brown",
我有一个列(A),其中有一个单元格,我想突出显示在其他列中使用的单词,其中包含句子,而不是单个单词。这怎麽可能?
使用条件格式和自定义公式
=regexmatch(B1, join("|", filter($A:$A, len($A:$A))))
B或C列中的单元格在使用A列单元格中的一个词时会突出显示,但我需要相反的方法。
当B或C列的句子中使用来自A列的单词时,应突出显示A列的单元格
在本例中,A列包含了两个字,如果在B或C列的所有行中都使用了这些词,则应突出显示这些词。
A栏:
Sausage
Wiener
Brat
B栏:
I like Sausage
I don
我想数一数每个日期有多少个句子包含具体的单词。例如:
Date Sentences
2020-10-22 Word1 bla bla bla Word2
2020-10-22 Bla bla bla bla
2020-10-22 Word3 bla bla
2020-10-22 Word1 bla bla bla
2020-10-23 Word3 bla
2020-10-23 Word1 bla bla
...
如果我要搜索的单词是用Wordx识别的(这只是一个例子,它们是诸如trump、money和其他词),而bla只是其他文本(例如,不会赢,.)。每一个单词,Word1,Wor
我有一个标准的熊猫DataFrame由字符串组成的句子(如下图所示),我想显示在‘身体’的任何地方都有单词“世界”的行。df.isin(['world'])不能工作,因为它只匹配精确的标签。如果"world“一词出现在'body‘文本中的任何地方,我想返回True。
body
0 'Hello world hi hi'
1 'My name is David, hello'
2 ...
我尝试过的代码是:
df.isin(['world'])
它产生:
body
0 False
1 False
2 ...
我有一个名为DF的dataframe,它包含两种类型的信息:日期时间和句子(字符串)。
0 2019-02-01 point say give choice invest motor today money...
1 2019-02-01 get inside car drive drunk excuse bad driving ...
2 2019-02-01 look car snow know buy car snow
3 2019-02-01 drive home car day terrify experience stay least
4 2019-02
我有一个dataframe,它在一列中包含句子、我从该列中提取的特定单词,第三列包含第二列中单词的同义词列表:
data= {"sentences":["I am a student", "she is my friend", "that is the new window"],
"words": ["student","friend", "window"],
"synonyms":[["pupil"],[&
假设我有一本字典,里面有几百万个单词和短语。对于每个输入句子,我要识别(精确匹配)字典中包含的所有单词/短语。应优先使用最长的字典名称,并且不要重叠。例如:
Sentence: "Los Angeles Lakers visited Washington State last week"
Dictionary: {Los Angeles, Lakers, Los Angeles Lakers, Washington, State, Washington State University}
Then the sentence would be tagged as follows
我一整天都在想办法解决这个问题。我是Python新手。
我有一张有大约5万张唱片的桌子。但下表将解释我试图做什么。
我想添加第三列名为分类。此列将包含来自“电影”列设置的条件的基于值的结果。
-----------------------------------------
N | Movies
-----------------------------------------
1 | Save the Last Dance
-----------------------------------------
2 | Love
如何才能按几个列进行分组,只针对列值中任意位置包含字符串的值?
例如,如果我想查看州和剧院名称,但只查看标题的计数或次数,因为其中的任何地方都有狗这个词,我如何才能对其进行筛选?
State | Theatre | Title | TicketPrice
NY B Dog in heaven 5.50
NJ C Basketball 3.33
NY B Cats 9.00
NY B Hair of Dog
我正在处理一个项目,该项目识别两个Excel工作簿之间的差异。当单元格值存在差异时,代码使用字符串"old value Changed to "new value“填充单元格。”
下面第一行代码中的df_orig包含比较,并突出显示了所有更改。然后,我开始创建数据帧来提取df_orig中包含值"Change“的行,如下所示。
我要做的是检查df_orig中的每一列,如果值"Change“出现在任何行中,则拉出该行,并创建一个包含具有该"Change”值的所有行的新数据帧,并将其输出到新的Excel工作簿。在我的df_orig中有187列,所以我下面使用的
我想在更多的列中搜索一些由输入选择的单词。它可能只是一个词或多个单词(所以一个单词列表)。我的数据集是这样的:
Text1 Text2
Include details about your goal... Include any error messages...
Describe expected and actual results Help you with specific coding, algorithm, or language problems: 4.5 points
例如,让我们说,我只想选择包含目标或错
我在表1的A列和表2的每行A列句子中有一个独特的单词列表。
我想要显示工作表1的C栏中的所有句子,其中包括当前在A栏中选择的单词。
_a____ means the cell containing "a" is selected
Col A | Col B | Col C
_a____| | A lovely house
this | | Throw a ball
Sheet 2
Col A
A lovely house
Making it rain
Throw a ball
因此,它应该返回单词匹配的句子,而不是字母,并且不应该区分大小写。
如果
开发一个程序,识别一个句子中的单个单词,将它们存储在一个列表中,并将原来句子中的每个单词替换为该单词在列表中的位置。例如,这个句子
我的名字是我的名字
这个句子可以使用序列1,2,3,1,2,3,2,3,3,2,3,1,2,3从这些单词在列表中的位置重新创建。
到目前为止,这就是我所拥有的:
sentence = input("Please enter a sentence that you would like to recreate")
x = sentence.split()
positions = [0]
for count, i in enumerate(