我正在尝试清理一些数据。在可变的“教育水平”下,我有多项观察,指的是拥有硕士学位。例如:“硕士”“硕士”“硕士学位”。我已经将它们组织成一个价值:使用IF-IF语句的“硕士学位”。然而,我有另一个条目的尾随空白名为“硕士学位”,这是不被拾起的IF-然后语句。我怎么才能把这个剪短呢?
我已经研究了一些处理这些问题的函数,如TRIM(),但我并不真正理解如何实现这些功能,因为我是SAS新手。
这就是我试图整理以前变量所使用的数据和格式的方式:
data libref.name;
set libref.name;
if Var1 = "Masters" then Var1
需要帮助得到上述单词(颧骨,佐马,ZYGMA)后,匹配名词男性。我试过不同的旗帜,如多行和多特,但仍然没有运气得到以上的主要词。如有任何帮助,将不胜感激。
import re
def main():
mytext = open("m.txt")
mypattern = re.compile('n. (m.|f.)')
for line in mytext:
match = re.search(mypattern, line)
if match:
print(match.group