发布于 2018-07-27 14:15 更新于 2018-08-12 06:51
有搭建博客这个想法的原因是看到室友搭的博客,感觉很不错,暑假了也得搞点事情,于是就参考了室友的博客,查了不少教程学着自己也搭一个。
GitHub 前不久发布了 New Features 公告,GitHub Pages now faster and simpler with Jekyll 3.0,宣布从 2016 年 5 月 1 日起,GitHub Pages 将只支持 kramdown 作为唯一的 Markdown 引擎。
Jekyll 是一款采用 Ruby 语言编写的、非常方便简单又功能强大的静态站点生成器,适合于搭建个人博客、静态网站等。我们知道,Github Page 默认支持的也是 Jekyll,而非 Hexo、Hugo等静态站点生成器。Hexo 是用 NodeJS 语言编写的,Hugo 是用 Go 语言编写的,它们三者背后其实都有非常丰富的插件来增强它们自身,从而为用户提供一个可插拔式的个人定制功能。由于本站目前是采用 Jekyll 来搭建的,所以为了提供给读者更加高效的阅读条件,笔者在廖柯杰大佬开发的 H2O 主题的基础上做了一些功能上的增加和优化,接下来就来详细介绍一下。
github pages 一直想添加代码高亮 highlighter ,基于 jekyll 3.0 的 rouge 终于搞定了:
一直以来都想搭建一个自己的博客,但是近半年做项目太忙,再加上教研室的网络很坑爹,所以也一直没顾得上。之前用过 WordPress 托管在免费的京东云擎上,但是速度太慢。在知乎上看到一些相关的内容,于是选择了在github上用jekyll搭建博客。
| 导语 随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。
本博客是对文本摘要的简单介绍,可以作为当前该领域的实践总结。它描述了我们(一个RaRe 孵化计划中由三名学生组成的团队)是如何在该领域中对现有算法和Python工具进行了实验。
本文介绍了深度神经网络在自动文本摘要任务中的研究进展。首先介绍了自动文本摘要任务的基本概念,然后详细阐述了基于深度神经网络的自动文本摘要方法,包括基于抽取式摘要和基于生成式摘要的方法。最后,文章对自动文本摘要方法的未来发展方向进行了探讨。
Jekyll 是采用Ruby语言实现的将纯文本转换为静态博客网站的利器,也是本站点的关键技术。本文将对Jekyll中的进阶内容进行说明。
BERT、GPT-2、XLNet等通用语言模型已经展现了强大的威力,它们可以应付各类任务,比如文本生成、问答。当这些模型对各种语言任务进行微调时,可以达到SOTA性能。
随着近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization)则提供了一个高效的解决方案。 根据Radev的定义[3],摘要是“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半”。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。 自动文本摘要有非常多的应用场景,如自动报
BERT和GPT-2之类的深度学习语言模型(language model, LM)有数十亿的参数,互联网上几乎所有的文本都已经参与了该模型的训练,它们提升了几乎所有自然语言处理(NLP)任务的技术水平,包括问题解答、对话机器人和文档理解等。
本文介绍了针对iOS平台静态代码扫描工具Coverity、Infer、Clang、Oclint的接入与对比,探讨了在代码扫描过程中可能遇到的坑点。通过对比分析,总结了各工具在准确率、扫描维度、误报率等方面的表现,并给出了部分代码分析结论。
这是一篇一本正经无聊的小研究项目。。 互联网现在面临很多新网络文体,比如弹幕文体、小红书的种草文体、网名等,这些超短文本中本身字符特征就比较少,但是表情包占比却很多,这是重要信息呀。 之前参加比赛,一般都是当作停用词直接删掉,在这些超短文本中可就不行了。
来源:Deephub Imba本文约8400字,建议阅读15分钟本文将使用Python实现和对比解释NLP中的3种不同文本摘要策略。 本文将使用 Python 实现和对比解释 NLP中的3种不同文本摘要策略:老式的 TextRank(使用 gensim)、著名的 Seq2Seq(使基于 tensorflow)和最前沿的 BART(使用Transformers )。 NLP(自然语言处理)是人工智能领域,研究计算机与人类语言之间的交互,特别是如何对计算机进行编程以处理和分析大量自然语言数据。最难的 NLP
本文将使用 Python 实现和对比解释 NLP中的3 种不同文本摘要策略:老式的 TextRank(使用 gensim)、著名的 Seq2Seq(使基于 tensorflow)和最前沿的 BART(使用Transformers )。
基于Transformer的大语言模型(LLM)具有很强的语言理解能力,但LLM一次能够读取的文本量仍然受到极大限制。
FastSum 的 GitHub 地址先为大家奉上:https://github.com/fastnlp/fastSum
文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数)不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量,从而进一步推动text generation 商业化能力。
本文主要内容:介绍Pointer-Generator-Network在文本摘要任务中的背景,模型架构与原理、在中英文数据集上实战效果与评估,最后得出结论。参考的《Get To The Point: Summarization with Pointer-Generator Networks》以及多篇博客均在文末给出连接,文中使用数据集已上传百度网盘,代码已传至GitHub,读者可以在文中找到相应连接,实际操作过程中确实遇到很多坑,并未在文中一一指明,有兴趣的读者可以留言一起交流。由于水平有限,请读者多多指正。
尝试过很多Windows搭建静态网页博客的方法,都是失败告终。试了几次Jekyll,这一次终于成功了。想把一些坑路分享一下。
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,对各类文本进行一个“降 维”处理显得非常必要,文本摘要便是其中一个重要的手段。文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。抽取式摘要从源文档中抽取关键句和关键词组成摘要,摘要全部来源于原文。生成式摘要根据原文,允许生成新的词语、短语来组成摘要。按照有无监督数据可以分为有监督摘要和无监督摘要。本文主要关注单文档、有监督、抽取式、生成式摘要
会话式多文档问答旨在根据检索到的文档以及上下文对话来回答特定问题。 在本文中,我们介绍了 WSDM Cup 2024 中“对话式多文档 QA”挑战赛的获胜方法,该方法利用了大型语言模型 (LLM) 卓越的自然语言理解和生成能力。
Geth V1.9.x增加了GraphQL的支持,开发者可以在经典的JSON RPC API和GraphQL API之间根据自己的去中心化应用具体需求进行选择。本文将介绍Geth 1.9新增GraphQL API的原因,并介绍其使用方法。
【导读】本篇论文是采用强化学习做抽取式摘要的首次尝试,作者在论文中通过强化学习对 ROUGE 进行全局优化,实现了自动生成文档摘要。对文档中的句子进行预测是否为候选摘要句子,并对所有句子进行打分,最后从候选摘要句子中选出打分高的m个句子作为文档摘要。
选自MetaMind 作者:Romain Paulus、Caiming Xiong、Richard Socher 机器之心编译 参与:Jane W、Cindy、吴攀 去年四月被 Salesforce 收购的 MetaMind 仍然在继续进行自然语言领域的前沿研究。近日,其研究博客发布了一篇文章,详细介绍了一种用于文本摘要提取的深度强化模型(deep reinforced model),机器之心对这篇博客进行编译介绍,并在文后附带了相关的研究论文摘要。论文链接:https://arxiv.org/abs/17
本文介绍了多轮对话存在指代和信息省略的问题,同时提出了一种新方法-抽取式多轮对话改写,可以更加实用的部署于线上对话系统,并且提升对话效果。
最近刚弄了这个博客,想以后偶尔写写,所以好好学习一下Markdown的语法,在此记录,避免我忘记。
WiFi-Pumpkin是一款无线安全检测工具,利用该工具可以伪造接入点完成中间人攻击,同时也支持一些其它的无线渗透功能。旨在提供更安全的无线网络服务,该工具可用来监听目标的流量数据,通过无线钓鱼的方式来捕获不知情的用户,以此来达到监控目标用户数据流量的目的。 主要功能 1.Rouge Wi-Fi接入点功能 2.Deauth攻击目标客户端AP功能 3.探测请求监测功能 4.Crendentials凭证监视功能 5.DHCP攻击 6.虚假的MAC地址广播DHCP请求攻击 7.HSTS劫持攻击功能 8.支持
在 SimCLS [2]论文发布后不久,作者又发布了抽象文本摘要任务的SOTA结果 [1]。BRIO在上述论文的基础上结合了对比学习范式。
机器翻译,作为自然语言处理的一个核心领域,一直都是研究者们关注的焦点。其目标是实现计算机自动将一种语言翻译成另一种语言,而不需要人类的参与。
文本摘要任务中最常用的评价方法是ROUGE(Recall-Oriented Understudy for Gisting Evaluation)。ROUGE受到了机器翻译自动评价方法BLEU的启发,不同之处在于,采用召回率来作为指标。基本思想是将模型生成的摘要与参考摘要的n元组贡献统计量作为评判依据。
导读:飞桨(PaddlePaddle)致力于让深度学习技术的创新与应用更简单。在重要的机器阅读领域,基于DuReader数据集,飞桨升级并开源了一个经典的阅读理解模型 —— BiDAF,相较于DuReader原始论文中的基线,在效果上有了大幅提升,验证集上的ROUGE-L指标由原来的39.29提升至47.68,测试集上的ROUGE-L指标由原来的45.90提升至54.66。
论文题目:Single Document Summarization as Tree Induction
本文介绍的是ICML 2020 论文《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization 》,论文作者来自伦敦帝国理工学院和谷歌。
大型语言模型(LLM)展现出了杰出的性能,并为我们提供了新的解题思路。但在实际应用过程中,如何评估大型语言模型的输出质量对于我们来说也至关重要。因为大模型的输出是概率性的---这意味着同样的Prompt产生的结果都有可能不同,大模型评估能够衡量模型输出的质量水平,能够确保用户的体验。为此,今天给大家整理了一些LLMs输出结果的评估方法。
【新智元导读】本次谷歌开源的TensorFlow主要用于文本中的信息提取,并生成摘要,尤其擅长长文本处理,这对自动处理海量信息十分有用。这一模型当下最典型的例子是新闻报道标题自动生成。这对机器学习能力至关重要,可以想想为什么中外的大学入学考试中阅读理解这道题都占了很大分值。 (文/ 谷歌大脑软件工程师 Peter Liu) 每天,人们都依靠大量的信息源,来获取信息,从新闻报道到社交媒体帖子再到搜索结果。能够针对长文本自动生成精确摘要的机器学习模型对于以压缩形式处理大量信息是非常有用的,这也是谷歌大脑(Go
本次文章主要介绍了ERNIE-GEN(语言生成任务)、统一预训练语言模型(UniLM)、问答系统数据集(CoQA)、端到端神经生成问答(GENQA)、生成式问答系统评估方法、自编码自回归语言模型(PALM)、答案生成器(KEAG)、生成式问答(gQA)。(四篇含源码)
Stable Diffusion web UI是一个基于Gradio库的Stable Diffusion图像生成的网页接口。
自从使用大型语言模型(LLMs)后,自然语言处理领域已经迅速发展。通过其令人印象深刻的文本生成和文本理解能力,LLMs已经在全球范围内得到了广泛的应用。
论文题目:Neural Document Summarization by Jointly Learning to Score and Select Sentences.
这篇论文是一篇综述性质的文章吧,研究了现有的Seq2Seq模型的应用和不足,以及如何通过不同的强化学习方法解决不足,写的深入具体,mark一下。
有关这部分内容,他又可以分为有监督的和无监督的,前者已经有了一些参考的生成结果可以比对,后者完全没有任何参考文本,只能通过文本本身来评估生成质量。
由于最近需要进行组内的知识分享,因而借此机会将文本摘要的一些基本知识以及本人的一些实践经验做成文稿,一方面用来组内分享,一方面也是总结一下过去在该领域的一些心得体会。因个人的能力所限,本文实质上是对文本摘要的不完全总结,如有未能囊括的知识点,还请同学们多提意见,一起进步。
今天为大家介绍的是来自Kamal Choudhary团队的一篇论文。在这项工作中,作者介绍了ChemNLP库,它可用于以下方面:(1)整理材料和化学文献的开放访问数据集,开发和比较传统机器学习、transformer和图神经网络模型,用于(2)对文本进行分类和聚类,(3)进行大规模文本挖掘的命名实体识别,(4)生成摘要以从摘要中生成文章标题,(5)通过标题生成文本以建议摘要,(6)与密度泛函理论数据集集成,以识别潜在的候选材料,如超导体,以及(7)开发用于文本和参考查询的网络界面。作者主要使用公开可用的arXiv和PubChem数据集,但这些工具也可以用于其他数据集。此外,随着新模型的开发,它们可以轻松集成到该库中。
领取专属 10元无门槛券
手把手带您无忧上云