首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

2017,那些出现在日记的人:简单文本挖掘

胡言乱语了许多,其实打算研究日记里出现的人名,也是因为想学习和应用一些文本分析和挖掘方法,根据看过文章来实践操作下,而日记是现成语料库,也是最熟悉不过文本,因此有了这样一篇文章。...二、提取人名 首先为了获取文本中出现的人名,根据这篇文章《从天龙八部小说衍生出google语义分析与gephi社交网络》里提供思路,用jieba中文分词Python库尝试从日记文本中提取出TF/IDF...引用一段对共现网络基本原理介绍:“实体间共现是一种基于统计信息提取。关系紧密的人物往往会在文本多段内同时出现,可以通过识别文本已确定实体(人名),计算不同实体共同出现次数和比率。...将数据导入gephi软件: ? 调整节点大小和颜色,并运行布局算法: ? 加上标签,比词云图能看到更多人物姓名: ?...一顿瞎操作,聚焦到文本中人物关系比较接近与频繁部分,主要节点有鲁迅、叶嘉莹、黛玉等等: ? 整个网络中最重要一条脉络如下图所示: ?

41620

Pandas实现这股票代码10-12之间股票筛出来

一、前言 前几天在Python白银交流群【YVONNE】问了一个Pandas数据分析问题,一起来看看吧。 问题描述:原始数据长这样 ,我需要把SHRCD这股票代码10-12之间股票筛出来。...原始数据如下图所示: 他报错内容如下所示: 他说我不能比int和str ,但我以为我取证以后就直接是int了,所以不知道怎么改 也可能是我没搞懂int和str。...二、实现过程 这里【莫生气】给了一个思路: 看上去整体代码没啥问题,主要是括号不对称导致。 经过点拨,顺利地解决了粉丝问题。后来【瑜亮老师】也指出其实不用转换成int也能比较大小。...另外代码有提示,这里标红了,可以针对性解决问题。 三、总结 大家好,我是皮皮。这篇文章主要盘点了一个Pandas数据处理问题,文中针对该问题,给出了具体解析和代码实现,帮助粉丝顺利解决了问题

17310
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    利用标签与样本之间统计信息改善文本分类embedding表示

    利用标签与样本之间统计信息改善文本分类embedding表示 论文标题:Exploiting Class Labels to Boost Performance on Embedding-based...背景 基于文本Embedding表示文本分类已经非常常见了,基本是文本分类基本选择之一。...这些词向量是通过外部语料训练,而没考虑到我们具体分类任务不同词对于各个类别不同重要性和相关性。我们希望能得到一个任务相关文本表示,能让那些跟我们任务更相关词语得到更强表示。...对于文本向量表示,我们经常是要把文本中所有的词向量综合起来形成一个统一表示,这样的话其他任务无关词就会影响我们整体表示。...「这个词在这个类重要性」 第二项 则称为category ratio,衡量某个词出现总次数,多大比例是出现在这个类别

    1.4K20

    把表所有错误自动替换为空?这样做就算数变了也不怕!

    小勤:怎么把表里面的错误都替换成为空值? 大海:Power Query里选中全表,替换错误值啊! 小勤:这个我知道啊。但是这个表是动态,下次多了一这个方法就不行了,又得重新搞一遍。...大海:首先,我们要得到表所有列名,可以用函数Table.ColumnNames,如下图所示: 小勤:嗯,这个函数也简单。但是,怎么再给每个列名多带一个空值呢?...小勤:那怎么把两组合在一起呢? 大海:还记得List.Zip函数吗?我把它叫“拉链”函数(Zip其实就是拉链意思)。 小勤:嗯!就是一一对应把两个列表数据“拉“在一起!我知道了!...大海:其实长公式就是这样一步步“凑”成,另外,注意你“更改类型”步骤里是固定哦。 小勤:嗯,这个我知道。后面我再按需要去掉这个步骤或做其他修改就是了。...而且,其他生成固定参数公式也可能可以参考这种思路去改。 大海:对。这样做真是就算数变了也不怕了。

    2K30

    编写程序,随机产生30个1-100之间随机整数并存入5行6二维列表,按5行6格式输出

    一、前言 前几天在某乎上看到了一个粉丝提问,编写程序,随机产生30个1-100之间随机整数并存入5行6二维列表,按5行6格式输出?这里拿出来跟大家一起分享下。...numbers = [random.randint(1, 100) for i in range(30)] # 将生成数字按5行6格式存储到二维列表 rows = 5 cols = 6 matrix...i in range(rows): for j in range(cols): matrix[i][j] = numbers[k] k += 1 # 按5行6格式输出二维列表数字...for 循环用来将随机数填充到二维列表。 最后一个 for 循环用来按5行6格式输出二维列表数字。 运行之后,可以得到预期结果: 后来看到问答区还有其他解答,一起来看。...下面是【江夏】回答: import random # 生成 30 个 1-100 随机整数,并存入 5 行 6 二维列表 data = [[random.randint(1, 100) for

    36920

    MongoDB 稀疏(间隙)索引(Sparse Indexes)

    } ) 这个示例,哪些不包含xmpp_id键()文档将不会被索引 间隙索引不会被使用到情形 如果一个间隙索引会导致查询或者排序操作得到一个不完整结果集时候..., 文本索引等总是稀疏索引 间隙索引与唯一性 一个既包含稀疏又包含唯一索引避免集合上存在一些重复值得文档,但是允许多个文档忽略该键。...在唯一索引,唯一索引会把null当做值,也就是说为null通常只能有一个。...duplicate key error collection: test.scores index: score_1 dup key: { : 90.0 }" } }) 三、小结 a、间隙索引就是创建索引索引在某些文档上列不存在...b、间隙索引在创建时应指定选项:{ sparse: true } c、间隙索引列上可以指定唯一性约束 四、更多参考 MongoDB 单键()索引 MongoDB 复合索引 MongoDB

    2.7K40

    一文理解MySQL锁机制与死锁排查

    间隙间隙锁(Gap Lock),只有在可重复读、串行化隔离级别才有,在索引记录之间间隙中加锁,或者是在某一条索引之前或者之后加锁,并不包括该索引本身。...间隙锁和间隙之间是互不冲突间隙锁唯一作用就是为了防止其他事务插入,在RR(可重复读)级别下解决了幻读问题。 例如id有3,4,5,间隙锁锁定id>3数据,是指4及后面的数字都会被锁定。...插入意向锁 插入意向锁(Insert Intention Locks),是一种特殊间隙锁,只有在执行INSERT操作时才会加锁,插入意向锁之间不冲突,可以向一个间隙同时插入多行数据,但插入意向锁与间隙锁是冲突...如果有死锁发生,可以通过KILL trx_mysql_thread_id来杀掉当前运行事务。 查询事务与锁命令行 死锁是并发系统中常见问题,同样也会出现在数据库MySQL并发读写请求场景。...发生死锁异常后,通过开启InnoDB监控机制来获取实时死锁信息,它会周期性(每隔 15 秒)打印 InnoDb 运行状态到 mysqld服务错误日志文件

    2.6K20

    RNN高级应用

    如果用两个树结构顶点去判断,那会丢掉很多中间环节信息。 如果只计数两个句子相似短语个数,那么会丢掉位置信息,即这些短语出现在什么位置。...similar matrix 由5行7组成,颜色深浅表示两个树结构相应部分间相似度大小。 ? 上图中,为什么不能直接把 similar matrix 直接投入神经网络?...最后效果: 下图中,横轴是 1-10 星号电影,纵轴是 not annoying 这样出现在相应级别比例。...在 not annoying ,not awesome 这两个例子,绿色 RNN 没有蓝色 MV-RNN 表现得好,因为 not annoying 出现在低星级次数不应该比出现在高星级电影次数多...和对应 cells 相乘并求和,其他部分和普通LSTMs计算方法一样。

    99350

    一篇文章彻底搞懂Mysql事务相关原理

    间隙锁定是对索引记录之间间隙锁定,或者是对第一个或最后一个索引记录之前间隙锁定。...,因为该范围中所有现有值之间间隙都是锁定。...(这不包括搜索条件仅包含多唯一索引某些情况;在这种情况下,会发生间隙锁定。)...一个事务进行间隙锁定不会阻止另一事务对相同间隙进行间隙锁定。共享和专用间隙之间没有区别。它们彼此不冲突,并且执行相同功能。 间隙锁定可以显式禁用。...否则,该 DB_ROW_ID不会出现在任何索引。 回滚段撤消日志分为插入和更新撤消日志。插入撤消日志仅在事务回滚时才需要,并且在事务提交后可以立即将其丢弃。

    81910

    Mysql关于锁方面和事务方面的问题

    事务隔离级别对应可以规避问题 五 InnoDB可重复读隔离级别下如何避免幻读 开启间隙锁, 间隙锁会封锁该条记录相邻两个键之间空白区域,防止其它事务在这个区域内插入、修改、删除数据;所谓间隙是将数据分为不同区间...Locks,就是Record lock和gap lock结合,即除了锁住记录本身,还要再锁住索引之间间隙。)...,那就要先知道MySQL一条记录是由记录额外信息部分和记录真实数据两部分组成。...5.2.2 Gap锁 Gap就是索引树种,插入新数据间隙间隙锁即锁定一个记录范围,但是不锁定记录本身。间隙锁是为了避免同一事务两次当前读出现幻读情况。...记录存储隐藏DB_TRX_ID、DB_ROW_ID、DB_ROLL_ID undo日志根据上述隐藏来进行记录数据回滚(版本回滚) review机制

    60120

    【建议收藏】MySQL 三万字精华总结 —锁机制和性能调优(四)

    对索引项之间间隙”加锁,锁定记录范围(对第一条记录前间隙或最后一条将记录后间隙加锁),不包含索引项本身。其他事务不能在锁范围内插入数据,这样就防止了别的事务新增幻影行。...检测死锁:数据库系统实现了各种死锁检测和死锁超时机制。InnoDB存储引擎能检测到死锁循环依赖并立即返回一个错误。...:在from列表包含子查询被标记为DERIVED,MySQL会递归执行这些子查询,把结果放在临时表里 UNION:若第二个select出现在UNION之后,则被标记为UNION,若UNION包含在from...,仅出现在key列表 ?...手动)类型转换),会导致索引失效而转向全表扫描 存储引擎不能使用索引范围条件右边 尽量使用覆盖索引(只访问索引查询(索引和查询一致)),减少select is null ,is not null

    93910

    InnoDB数据锁–第2.5部分“锁”(深入研究)

    ,但是从中可以得到一些更深层次想法: 通常,要提供可串行性,您需要“锁定所见内容”,这不仅包括点,而且还包括点之间间隙。如果您可以想象查询在扫描时如何访问表,那么您大都可以猜测它将必须锁定什么。...例如,在READ COMMITTED隔离级别较低情况下,我们尝试避免锁定行之间间隙(因此,其他事务可以在行之间插入行,这会导致所谓“幻读”) 在InnoDB,所有那些“正在插入”和“正在删除”行...,实际上都存在于索引,因此出现在轴上并将其分成多个间隙。...这意味着即使在概念上并发事务之间没有交互(例如,在提交事务之前,我们不应该看到行被事务插入),但在低级别实现,它们之间交互仍然很多(例如,事务可以在尚未正式存在行上有一个等待锁)。...实际上,InnoDB确实在每个二级索引条目中存储了主键(示例x),因此在索引为y查找x值并不重要。

    1.3K10

    vertical-align刨根问底

    他们专注于试图让一个元素里面的所有东西都竖直对齐错误想法,给出属性基本介绍,并解释非常简单场景下元素对齐方式,而不解释技巧性部分 所以,我给自己定下了一劳永逸地澄清vertical-align...(descender)空间,造成了间隙。...inline-block; /* size, color, etc. */ } .middle { vertical-align: middle; } 这种场景不会出现在含有文本内容内联...-块元素,因为内容已经移到baseline上了 内联级元素之间间隙破坏布局 这主要是内联级元素自身问题,但因为它们是vertical-align依赖项之一,所以最好了解清楚 在前一个例子也能看到列表项之间间隙...,间隙来自出现在标记代码(HTML/XML等)里内联元素之间空白字符。

    1.2K50

    InnoDB锁(Locking)

    表级锁类型兼容性汇总在以下矩阵。可以把看作是其他事务已经被授予锁,行是事务要新请求锁。...间隙锁是对索引记录之间间隙锁定(单/多索引间隙锁),或者是对第一个索引记录之前或最后一个索引记录之后间隙锁定(空间隙锁)。...t.c1,无论该 是否已经存在任何此类值。...间隙可能跨越单个索引值,多个索引值,甚至为空。 间隙锁是性能和并发性之间权衡一部分,并且使用在某些事务隔离级别而非其他级别。 对于使用唯一索引来锁定唯一行来锁定行语句,不需要间隙锁定。...(这不包括搜索条件仅包含多唯一索引某些情况;在这种情况下,会发生间隙锁定。)

    93330

    吃瓜是需要底层数据库事务锁支撑

    当使用唯一索引进行搜索时候,不会产生间隙锁 例如:studentid是唯一索引 select * from student where id = 1; 当使用非唯一索引或者没有索引进行搜索时候...,会产生间隙间隙范围: 根据检索条件向下寻找最靠近检索条件记录值A作为左区间,向上寻找最靠近检索条件记录值B作为右区间,即锁定间隙为(A,B] 左开右闭。...例如:testid是没有索引 ? 使用如下sql查询时候 在lsy用户下执行 select * from test where id = 3 for update; ?...:」 多个进程之间形成一种互相循环等待资源关系。...test表 1、在事务1先删除student表id=10数据 2、在事务2删除test表id=6数据 3、在事务1删除test表id=6数据 4、在事务2删除student表id=

    48240
    领券