前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >《Python自然语言处理》答案第一、二章

《Python自然语言处理》答案第一、二章

作者头像
JasonhavenDai
发布2018-04-11 14:26:07
发布2018-04-11 14:26:07
1.1K00
代码可运行
举报
文章被收录于专栏:JasonhavenDaiJasonhavenDai
运行总次数:0
代码可运行

第一章

1
代码语言:javascript
代码运行次数:0
运行
复制
12/(4+1)
2
代码语言:javascript
代码运行次数:0
运行
复制
26**100
4
代码语言:javascript
代码运行次数:0
运行
复制
len(text2)
len(set(text2))
7
代码语言:javascript
代码运行次数:0
运行
复制
len(list(nltk.bigrams(text5)))
15
代码语言:javascript
代码运行次数:0
运行
复制
[w for w in sorted(text5) if w.startswith('b')]
17
代码语言:javascript
代码运行次数:0
运行
复制
 def find_word(text,word):
   ...:     pos=0
   ...:     while pos<len(text):
   ...:         try:
   ...:             pos=text.index(word,pos)+1
   ...:             print(pos)
   ...:         except Exception as e:
   ...:             print('all have bean found!')
   ...:             return
   ...:
find_word(list(text9),'sunset')
22
代码语言:javascript
代码运行次数:0
运行
复制
fd=FreqDist(text5)
[w for (w,_) in fd.most_common() if len(w)==4]
23
代码语言:javascript
代码运行次数:0
运行
复制
[w for w in text6 if w.isupper()]
24
代码语言:javascript
代码运行次数:0
运行
复制
[w for w in list(text6) if w.endswith('ize') and w.find('pt')!=-1 and w[0].isupper() and w[1:].islower()]
25
代码语言:javascript
代码运行次数:0
运行
复制
[w for w in sent if w .startswith('sh')]
[w for w in sent if len(w)>4]
28
代码语言:javascript
代码运行次数:0
运行
复制
def percent(word,text):
    fd=FreqDist(text)
    return '{}%'.format((fd[word])*100/len(text))

第二章

2
代码语言:javascript
代码运行次数:0
运行
复制
persusion==nltk.Text(nltk.corpus.gutenberg.words('austen-persuasion.txt'))
len(persusion)
len(set(persusion))
4
代码语言:javascript
代码运行次数:0
运行
复制
cfd=ConditionalFreqDist((target,fileid[:4]) for fileid in state_union.fileids() for word in
 state_union.words(fileid) for target in ['men','women','people'] if target == word.lower()
)                                                                                          
8
代码语言:javascript
代码运行次数:0
运行
复制
male_names=names.words('male.txt')
female_names=names.words('female.txt')
fd_male=nltk.FreqDist(male_names)
fd_female=nltk.FreqDist(female_names)
cfd=nltk.ConditionalFreqDist((fd_male[name],name[0]) 
for fileid in names.fileids() 
for name in names.words(fileid) 
    if fd_male[name]>fd_female[name])
12
代码语言:javascript
代码运行次数:0
运行
复制
len(set(w for (w,p) in cmudict.entries()))
fd=FreqDist([len(pron) for (word,pron) in cmudict.entries()])
fd.most_common()[0][1]/len(cmudict.entries())
15
代码语言:javascript
代码运行次数:0
运行
复制
fd=FreqDist(brown.words())
[w for (w,_) in fd.most_common() if fd[w]>3]
16
代码语言:javascript
代码运行次数:0
运行
复制
 def word_diversity(words):
    ...:     return len(words)/len(set(words))
for category in brown.categories():
    ...:     diversity=word_diversity(brown.words(categories=category))
    ...:     print('%s\t%.2f'%(category,diversity))
17
代码语言:javascript
代码运行次数:0
运行
复制
def fun(text):                                                                    
    fd=FreqDist([w.lower() for w in text if w not in stopwords.words('english')]) 
    return [w for (w,_) in fd.most_common()[:50]]                                 
18
代码语言:javascript
代码运行次数:0
运行
复制
 def fun(text):
    ...:     fd=FreqDist([(w1,w2) for (w1,w2) in bigrams(text) if w1 not in stopwords.words('english') and w2 not in stopwords.words('english')])
    ...:     return [w for w in fd.most_common()[:50]]
20
代码语言:javascript
代码运行次数:0
运行
复制
def word_freq(text,word):
    ...:     count=nltk.Text(text).count(word)
    ...:     return count/len(text)

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.01.21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 第一章
    • 1
    • 2
    • 4
    • 7
    • 15
    • 17
    • 22
    • 23
    • 24
    • 25
    • 28
  • 第二章
    • 2
    • 4
    • 8
    • 12
    • 15
    • 16
    • 17
    • 18
    • 20
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档