首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2017,那些出现在日记中的人:简单的文本挖掘

一、前言 终于做出这张图时,我突然有点感慨,这就是2017年我的日记中提到过或记录过的一个个人名,当然避免引起不必要的麻烦,隐去了许多亲人朋友的名字。...2018年已经过去了一周,很多人总结、该回顾2017年的想来也都总结回顾了,没有总结习惯的就继续过自己新的一年。...二、提取人名 首先为了获取文本中出现的人名根据这篇文章《从天龙八部小说衍生出的google语义分析与gephi社交网络》里提供的思路,用jieba中文分词Python库尝试从日记文本中提取出TF/IDF...实现的代码可参考提取《釜山行》人物关系的代码,可根据自己的需求进行更改。 ? 运用到自己的文本上,并生成后续用于gephi可视化的“节点”和“边”文件,同样需要剔除非人名数据。节点格式如下: ?...在大部分较常规的联系之中,存在着“贺龙”与“贺知章”这一蛮奇特的关联,思索了几秒后,才想起曾有人询问取名、赐名的一桩旧事,倒也有趣,不过说来至今不知道贺姓名人还有哪些,大看到的小伙伴可以说说,并试着贺姓小男孩个你觉得不错的名字呗

41020

RNN、LSTM、GRU神经网络构建人名分类器

, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗, 限制手机号码位数等等。...hidden_size self.input_size = input_size self.output_size = output_size # RNN的输入数据通常被组织形状...category = random.choice(all_categories) # 然后在通过category_lines字典category类别对应的名字列表 # 之后再从列表中随机一个名字...current_loss += loss # 如果迭代数能够整除打印间隔 if iter % print_every == 0: # 迭代步上的...: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗

7410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    看美剧英文字幕学英语的利器——“深蓝英文字幕助手”简介

    对英文字幕中的每个句子进行转换和分解,分解成词汇,然后用分解出的词汇和用户词汇表进行比对,如果发现是用户认识的单词,那么就忽略,如果是用户不认识的单词,那么就查询字典(默认采用的是维科英汉词典10W词汇,基本满足日常词汇需要),得到单词的中文解释...2.如何知道一个词是人名/地名。 在美剧中必然会大量的出现人名地名啥的,如果人名本身没有其他意义那还好说系统会忽略,但是如果人名有其他意义就会对整个句子的意思造成影响。...3.对于一词多性多义,怎么判断哪个意义。 有些单词既可以做动词用,也可以做名词用,当名词时和动词时的意思完全不一样,这是一个问题。...一个是看是否变形,如果是booking或者booked,那么这是动词的变形,所以必然动词的解释:预定。 二是看前后单词的词性,如果book的前面是adj.那么这里的book就是名词。...4.对于一词多义,而且词性还相同,那怎么。 这个有难度,我程序没办法解决,把每个意义都列出来,让用户根据上下文,自己选择。

    62120

    自然语言处理中的分词问题总结

    在 Demo 环境下可以使用 Stanford 系统,在大规模数据环境下不适合使用该系统。 GPWS 系统   GPWS 是北京语言大学语言信息处理研究所研发的分词系统,2001 年对外发布。...GPWS 可以实现中文人名、外国人名、日本人名的识别,其它分词系统几乎都没有做到这个程度;对通用领域的文本切分效果较好,支持自定义词典;很少出现切分“离谱”的情况。该系统适合大规模数据处理的场景。...歧义问题在分词中不是罪严重的问题,仅占分词错误的 10% 左右。...图3.jpg 分词错误的主要来源 未登录词 - 不在词典中的词,问题在文本中出现频度远远高于歧义。 未登录词的类型包括:人名、地名、机构名、公司名、数字、日期、专业术语、新词、产品名等。...理论解决方案的问题 训练数据规模有限 北大人民日报的原始语料的词语 2800 万;CTB9.0 词语 200 万;国家语委数据 5000 万字。 标注语料是一个非常消耗人力的事情。

    1.2K00

    弹幕挖掘在综艺节目热点分析中的应用初探

    进而,在接下来的运营推广中,可以根据排名进行曝光资源、推广资源的灵活调度。...技术本文弹幕分析中,选手热度排名分析依赖的核心算法模块。 既然是标注,很容易想到基于规则,对人工标注库进行匹配的方法。...基于假设,通过命名实体识别标注出弹幕中的人名后,计算各个人名共同出现的频率,并把弹幕点赞作为人物关系值加权。将这样的关系链用图数据库进行可视化展示,相关的联系便可一目了然。 3. ...3.2 节目高潮和低谷分析 同样以明子第三期例,统计汇总各5分钟时段的弹幕,可得到期节目的弹幕数量随视频进度变化的分布图。 ?...3.6 热门关系链话题分析 从“人名在同一条弹幕文本中被提及,则认为存在关系链话题”这一假设出发,提取弹幕中的人名共同出现次数,及对应弹幕累积点赞,并将相关信息进行可视化。最终效果呈现如下。 ?

    1.6K21

    GPT、Llama等大模型存在「逆转诅咒」,这个bug如何缓解?

    提出的 “人名 - 描述问答” 数据集,数据集使用 GPT-4 编造了若干人名和对应的描述,人名和描述都是独一无二的。...prompt 模型训练集 “NameToDescription” 部分涉及到的描述,让模型回答相应的人名 研究在此数据集上对 Llama 和 GLM 按照各自的预训练目标(Llama 用 NTP 目标...研究提出的解决方法非常简单,规定: 当 时,无需对内积计算做任何修改;当 n > m,通过引入一个新的旋转矩阵 来计算。 是将旋转矩阵中所有的 sin 项都相反数得到的。这样,就有 。...在同样微调十个 epoch 的情况下,在上述人名描述数据集上,与正常 NTP 微调的表现对比如下: 可以看到研究的方法对于逆转诅咒有一定的缓解。...研究者推测这一现象的原因:尽管数据集中的人名及其对应描述由 GPT 编造以减少预训练数据对测试的干扰,但由于预训练模型具备一定程度的常识理解能力,比如认知到人名与描述之间通常存在一对多的关联。

    15710

    Scrapy 爬虫模板--CrawlSpider

    方法主要用来过滤; process_request:回调函数,也可以是回调函数的字符串名。用来过滤 Request ,规则提取到每个 Request 时都会调用该函数。...一、案例 这个案例我们爬的是名人名言网站,我们需要做的是提取名言内容、作者姓名和标签,然后通过作者链接进入到作者介绍的页面,最后我们爬的作者的详细信息。...}) 上述代码中 Rule(LinkExtractor(allow='/page/\d+'), callback='parse_quotes', follow=True),代码段定义了爬所有名人名言页的规则...,即只要符合 /page/\d+的所有链接就被视为名人名言页,然后我们调用 parse_quotes 方法提取相关数据。...)代码段中我们定义了爬作者信息页的规则,即只要符合/author/\w+_```的所有链接就被视为作者信息页,之后我们调用 parse_author 方法提取相关数据

    83210

    31万弹幕大军都推荐你去看的《山海情》,是怎样一部最搞笑最土味的扶贫剧!?

    也就是在1月24日该剧迎来了大结局,我们爬腾讯视频全23集共31.79万条弹幕,看看大家都在聊什么!...数据预览 2. 各集弹幕 3. 弹幕词云 3.1. 全部弹幕词云 3.2. 去掉人名后的弹幕词云 3.3. 主要角色关联词云 4. 弹幕情感分析 4.1. 弹幕抽样情感分析 4.2....数据预览 爬虫部分代码较多,我们放在最后哈。完整代码及弹幕数据文件大家亦可 在公众号 后台 回复 山海情 获取。...预览数据中,相关字段说明如下: commentid :弹幕唯一id content :弹幕内容 upcount :点赞 timepoint :所属集对应弹幕发送时间(s) opername :弹幕 用户昵称...去掉人名后的弹幕词云 我们去掉人名(将剧中的人名添加到停用词)的弹幕分词后绘制词云(以宁夏省行政区域背景)如下图所示,可以发现 大家都觉得该剧特别的真实。

    36320

    【Python】学习笔记week3-1 输出-输入-计算

    【PYTHON】圆面积的计算#输入输出数值计算 题目描述 根据圆半径计算圆面积,结果保留两位小数。...eval(input()) pi=3.1415 print("{:.2f}".format(r*r*pi)) 【PYTHON】说句心里话#输入输出 题目描述 分两次从控制台接收用户的两个输入:第一个内容"...人名",第二个内容"心里话"。‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬...) 输入 人名‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬ 心里话 输出 (人名),我想对你说,(心里话) 样例输入 李安...#数值计算 题目描述 编程从键盘读入3个,输出它们的和与平均值。

    56.7K157

    【文智背后的奥秘】系列篇:基于 CRF 的人名识别

    命名实体根据其特点可以分为两大类,一类是可以根据构词法规则及上下文语境识别出来的,比如人名、地名、机构名;另外一类是可以穷举的垂直类实体,比如影视名,小说名,游戏名等。...二.人名识别 人名识别是命名实体识别中比较典型的一类问题,目前业界主要采用的方法是基于统计的。我们可以把人名识别问题看成是一个序列标注的问题,即根据观察序列预测最优隐含状态序列。...我们把标记定义:姓用字 B,名中字用字I,名尾字用字E,其他用字O,那么下图的例子中,人名识别的问题可以转化为在已知输入文本“去看谭咏麟演出”,找到一条最大概率的标注序列,即“OOBIEOO”。...于是我们添加了一个是否姓名常用字的特征,这个特征可以解决当该名字没有在语料中出现过的时候,也可以根据他的用字特点把新人名识别出来。...Boosting的方法主要思想就是先用n个基分类器,然后把他们进行加权融合,产生一个最后的结果分类器,在这n个基分类器中,每个单个的分类器的识别率不一定很高,但他们联合后的结果有很高的识别率,这样便提高了弱分类算法的识别率

    3.9K31

    数据集!康奈尔大学提出了类似VG但又不是VG的PVG任务

    在本文,作者提出了一个用于训练任务的新数据集,Who’s Waldo 。作者还提出了一个Transformer-based的方法用于解决问题,且性能明显优于其他baseline方法。...传统的Visual Grounding能够根据Object的表达来进行物体的定位,但是如果在PVG任务中也采用这种方式就会产生一定的问题:根据人名来定位会产生一定的偏置(比如性别等)。...因此,作者使用 neural coreference resolution模型,将多个人名实体聚类一个人名。...Wikimedia Commons提供了文字中的人名和图片中人脸的对应。然后作者可以根据关键点和检测模型生成对应的检测框,作者将置信度大于0.46的检测框作为文本中对应人的检测框。...本文的方法在这项任务上取得非常不错的性能,此外作者也证明了目前的ground方法在本文提出的数据集上性能下降都比较明显,说明只根据上下文对于传统方法来说很难进行准确的定位。

    1K30

    Bi-LSTM+CRF模型实现命名实体识别

    一般命名实体有分:人名、地名、组织名、机构名等等之分,根据不同的任务有不同的划分。...例如,对于人名识别的任务来说,我们把每个字分类三类:O,B-PER,I-PER。...其中“周恩来”是一个人名,于是这三个词被标注B-PER I-PER I-PER。 同理“马骏”也是一个人名。 做了这个处理以后,这个任务就简单的多了。...Bi-LSTM+最大熵 解法 Bi-LSTM+最大熵 解法是特别简单粗暴的一种解法,它的核心思想是通过一个Bi-LSTM计算得到某个词标注各类标签的势能(其实就可以理解概率)分布,然后这些标签里面...数据处理模块主要是为了实现两个函数:next_train_batch和next_valid_batch,用于从训练集和预测集获取一个batch的数据,注意这里的batch不是随机的,而是序惯的。

    2.5K10

    MapReduce-WorldCount编程思路

    Map阶段 以人名wordcount例: maptask输入 k-v 代表 偏移量-行数据。 maptask输出 k-v 代表 人名-1。...,合并临时文件是将上面进行分组和聚合,生成一个新文件; 按k分组,这里并不是真实的数组,而是迭代器: 张三 [1,1] 李四 [1,1,1] 王五 [1] 赵六 [1] reduce输入 k-v :人名...阶段 /* 继承Mapper类,只要输入的是文字,泛型中有固定的数据类型: k-LongWritable == L v-Text == String 不固定的是输出的 k-v,在示例中...LongWritable key, Text value, Context context) throws IOException, InterruptedException { //Mapper类根据每个逻辑切片中的数据行数...设置输入路径和输出路径 // TextInputFormat读取hdfs中的文件,根据文件大小和个数对其split逻辑切片 // MapReduce根据切片多少,启动对应的MapTask任务

    6610

    HanLP分词工具中的ViterbiSegment分词流程

    用户词典干预根据是否进行全切分有两种不同方法:当配置变量indexMode>0时,即系统处于全切分模式时,对应方法 List combineByCustomDictionary(List...从调用的方法我们不难看出,全切分时系统会根据CustomDictionary.txt添加分词路径。而普通切分时,系统会根据CustomDictionary.txt合并路径。...数字识别 如果配置变量numberQuantifierRecognizetrue,则在粗分结果的基础上进行数字合并操作,否则直接跳过步。...实体识别 配置变量nertrue时,则需要进行各种实体的识别,继续向下执行。需要注意变量受其他实体识别变量影响,只要其他任意实体配置变量true,则ner就会为true。...(3)日本人名识别 执行此步,配置变量japaneseNameRecognize必须true。

    1.1K31

    【NLP自然语言处理】基于PyTorch深度学习框架构建RNN经典案例:构建人名分类器

    学习目标 了解有关人名分类问题和有关数据 掌握使用RNN构建人名分类器实现过程 案例介绍 关于人名分类问题: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名...人名分类数据: 数据下载地址: https://download.pytorch.org/tutorial/data.zip 数据文件预览: # 数据集在虚拟机/root/data/names下...category = random.choice(all_categories) # 然后在通过category_lines字典category类别对应的名字列表 # 之后再从列表中随机一个名字...current_loss += loss # 如果迭代数能够整除打印间隔 if iter % print_every == 0: # 迭代步上的...: 以一个人名为输入, 使用模型帮助我们判断它最有可能是来自哪一个国家的人名, 这在某些国际化公司的业务中具有重要意义, 在用户注册过程中, 会根据用户填写的名字直接给他分配可能的国家或地区选项, 以及该国家或地区的国旗

    13910

    独家 | 轻松上手,通过微调Transformers完成命名实体识别任务

    命名实体识别简介 如果你还不熟悉NER,请查看维基百科上的定义: 命名实体识别(也称(命名)实体标识,实体片或实体提取)是用于信息提取的自然语言处理子任务,旨在将非结构化文本中提到的命名实体定位并分到预定义的类别...现在,我们已经NER微调了属于自己的一个基于BERT的最优效果 (state-of-the-art)模型。 让我们看看模型在独立测试集上的表现(通过F1得分评估)。...(正确地)将“ Cristiano Ronaldo”(足球运动员)标识为人名,并将“ Juventus FC”(足球俱乐部)标识组织机构名。...为了微调NER中丹麦语的transformer,我们可以利用DaNE数据集,数据集由带有NER注释的丹麦语句子组成。...你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景志愿者带来好的发展机遇。

    1.1K30
    领券