这是初学者常问到的问题。作为一个初学者,你经常会去寻找这个问题的答案,比如你希望别人为你解答,x%的准确性或者x的误差分数是否有效。这篇文章将告诉你如何自己来回答这个问题,以及确定你的模型技能是否良好。
我们知道,循环神经网络(RNN)在深度学习和自然语言处理研究的早期发挥了核心作用,并在许多应用中取得了实功,包括谷歌第一个端到端机器翻译系统。不过近年来,深度学习和 NLP 都以 Transformer 架构为主,该架构融合了多层感知器(MLP)和多头注意力(MHA)。
为解决大模型(LLMs)在处理超长输入序列时遇到的内存限制问题,本文作者提出了一种新型架构:Infini-Transformer,它可以在有限内存条件下,让基于Transformer的大语言模型(LLMs)高效处理无限长的输入序列。实验结果表明:Infini-Transformer在长上下文语言建模任务上超越了基线模型,内存最高可节约114倍。
“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
去年 12 月,新架构 Mamba 引爆了 AI 圈,向屹立不倒的 Transformer 发起了挑战。如今,谷歌 DeepMind「Hawk 」和「Griffin 」的推出为 AI 圈提供了新的选择。
尽管 BERT效果惊人,但它所需的计算量非常大,原作者在论文中也表示每次只能预测 15% 的词,因此模型收敛得非常慢。如果我们想保留这种 Mask 机制,那么就需要寻找另一种加速方法了。
BERT 在 33 亿文本的语料上训练语言模型,再分别在不同的下游任务上微调,在11个不同的 NLP 任务均得到了目前为止最好的结果。
数据可视化是一种以图形描绘密集和复杂信息的表现形式。数据可视化的视觉效果旨在使数据容易对比,并用它来讲故事,以此来帮助用户做出决策。
选自arXiv 机器之心编译 参与:蒋思源 Yoshua Bengio 等人提出了一种新型循环神经网络,该网络由前向和反向循环网络组成,并且前向和反向隐藏状态之间有一定的紧密度而共同预测相同的符号。因
本研究展示了一种新型Transformer的语言模型:Mixture-of-Depths Transformer,该模型能够动态地分配计算资源到输入序列的特定位置,而不是像传统模型那样均匀地分配计算资源。通过动态计算分配方式,可以在保持性能的同时显著提高模型速度,可比isoFLOP最优基线模型快66%!
今天为大家分享谷歌的Material Design可视化数据设计规范指南,这个规范指南基本适用所有数据图表设计,很有参考价值,建议收藏。
这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,——Hawk和Griffin。
选自arXiv 作者:Timo Schick等 机器之心编译 编辑:袁铭怿、小舟 单一的大型语言模型或许无法实现 AGI,但如果它学会使用其他工具呢? 在自然语言处理任务中,大型语言模型在零样本和少样本学习方面取得了令人印象深刻的结果。然而,所有模型都存在固有的局限性,往往只能通过进一步扩展来部分解决。具体来讲,模型的局限性包括无法访问最新信息、会对事实产生「信息幻觉」、低资源语言理解困难、缺乏进行精确计算的数学技能等等。 解决这些问题的一种简单方法就是给模型配备外部工具,如搜索引擎、计算器或日历。然而,现
TLDR: 针对当前利用大语言模型来执行推荐任务时存在的不能有效处理ID信息的挑战,本文提出了一种高效可扩展的大语言模型序列推荐框架,其能够高效的结合传统基于ID的推荐模型。实验展示了其有效性、高效性和可扩展性。
机器之心报道 编辑:杜伟、陈萍 扩散模型正在不断的「攻城略地」。 扩散模型并不是一个崭新的概念,早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。 那么它在视频领域表现如何?先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。 在视频生成领域,研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑,显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展,它可以从图像和视频数据中进行联合训
来源:机器之心本文约2100字,建议阅读9分钟扩散模型正在不断地「攻城略地」。 扩散模型并不是一个崭新的概念,早在2015年就已经被提出。其核心应用领域包括音频建模、语音合成、时间序列预测、降噪等。 那么它在视频领域表现如何?先前关于视频生成的工作通常采用诸如GAN、VAE、基于流的模型。 在视频生成领域,研究的一个重要里程碑是生成时间相干的高保真视频。来自谷歌的研究者通过提出一个视频生成扩散模型来实现这一里程碑,显示出非常有希望的初步结果。本文所提出的模型是标准图像扩散架构的自然扩展,它可以从图像和视频数
2022年3月2日,Yoshua Bengio团队在arXiv预印本提交论文,介绍了一个将主动学习框架和GFlowNets生成器结合的生物序列生成模型,用于生物序列(多肽、DNA、蛋白质等)的设计。
AWR是Automatic Workload Repository的简称,中文叫着自动工作量资料档案库。既然是仓库,又是保存负载数据,所以保存的是数据库性能相关的数据。即特定数据库或者实例在过去运行期间整个性能表现。AWR能实现性能数据的收集,处理,维护,以及给出调整参考等。这些收集到的数据被定期保存到磁盘,可以从数据字典查询以及生成性能报告等。
我正在创建一系列[有价值的项目](https://towardsdatascience.com/howto -build-an- effective-dat-scienceportfoli-56d19b885aa8),我想到了将我从别人那里学到的或在工作中开发的实践记录下来。在本博客中,我整理了在处理端到端ML项目时经常提到的任务清单。
今天给大家介绍投稿在ICLR2021上的一项工作。由于蛋白质序列上的微小改变可能导致其功能上难以预测的变化,所以蛋白质序列往往无法使用类似于计算机视觉或自然语言处理中所使用的随机数据扩充方法。针对以上问题,作者从经验上探索了一组简单的字符串操作,当微调半监督蛋白质模型时,可使用这些操作来增加蛋白质序列数据。在TAPE baseline上的结果表明,对比学习微调方法优于mask token预测微调方法,随着数据扩充量的增加,对比学习方法的性能随之提高。当使用域驱动的转化以及将Transformer的注意力限制在蛋白质序列的随机采样子区域时,跨TAPE任务的结果最一致。在极少数情况下,破坏信息的扩充方式可以改善下游任务表现。
检测系统瓶颈 性能调优 创建一项基线,用来评估系统的首次运行性能(即集群默认配置) 分析Hadoop计数器,修改,调整配置,并重新执行任务,与基线进行比较 重复执行第2步,直到最高效率 识别资源瓶颈 内存瓶颈 当发现节点频繁出现虚拟内存交换时表示出现了内存瓶颈 CPU瓶颈 通常情况下,处理器负载超过90%,在多处理器系统上整体负载超过50% 判断是否是单个特定线程独占了CPU IO瓶颈 磁盘持续活动率超过85%(也有可能是由CPU或内存导致) 网络带宽瓶颈 在输出结果或shuffle阶段从map拉取数据时
今天给大家介绍的是一项由硅谷Salesforce Research的Ali Madani等人和斯坦福的Possu Huang教授课题组合作的工作,他们在这篇论文中提出的一种蛋白生成语言模型ProGen。作者将蛋白质工程视为无监督序列生成问题,利用大约2.8亿个的蛋白质序列对12亿个参数进行训练,且要求这些蛋白质序列是基于分类和关键字标签的,如分子功能和细胞成分,这为ProGen模型提供了前所未有的进化序列多样性,并允许它进行基于一级序列相似性、二级结构准确率和构像能量的细粒度控制生成。根据NLP指标,ProGen模型表现出良好的性能,且随着氨基酸上下文和条件标签的增多,模型效果会进一步提升。ProGen也适用于未见的蛋白家族,若进行微调,模型效果更好。
机器之心报道 编辑:rome rome DALL-E 已经能够很好地从文本生成图像,那么如何高效地实现语音合成呢?本文带你看微软最新推出的语音合成模型 ——VALL-E,它的效果将惊掉你的下巴。 近十年间随着神经网络和端到端建模的发展,语音合成技术取得了巨大突破。级联的文本到语音(TTS)系统通常利用声学模型 pipeline 和梅尔频谱作为中间表示的声码器。先进的 TTS 系统可以从单个或多个 speaker 合成高质量的语音,但仍需要高质量的 “干净” 数据。从网络上抓取的大规模数据无法满足要求,并且会
前言 外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。 从时间上看,外卖订单量时间序列有两个明显的特征(如下图所示): 周期性。每天订单量的变化趋势都大致相同,午高峰和晚高峰订单量集中。 实时性。当天的订单量可能会受天气等因素影响,呈现整体的上涨或下降。 订单量波动预警,初期外卖订单中心使用的是当前时刻和前一时刻订单量比较,超过一定阈值就报警的方式,误报率和漏报率都比较大。后期将业务数据上传到
总体而言,这份研究在于理解人类编写代码的过程(例如 GitHub 的 commit),并使用深度神经网络模拟这个动态的编辑过程。只需要给定上一次的编辑信息,模型就能预测下一次代码编辑该改什么,从而继续修改与生成代码。前一段时间,OpenAI 的 GPT-2 能生成逼真的自然语言对话,也许采用相同的模式,这种动态代码编辑也能生成「逻辑合理」的源代码。
文章:RD-VIO: Robust Visual-Inertial Odometry for Mobile Augmented Reality in Dynamic Environments
基于注意力的Transformer网络被广泛用于序列建模任务,包括语言建模和机器翻译。为了提高性能,模型通常通过增加隐藏层的维度来扩展,或者通过堆叠更多的Transformer块来扩展。例如,T5使用65K的隐藏层参数,GPT-3使用96个Transformer块。然而,这样的缩放显著增加了网络参数的数量(例如,T5和GPT-3分别有110亿个和1750亿个参数),并使学习复杂化,也就是说,这些模型要么需要非常大的训练库或特定的的正则化。
华为5G安全白皮书[1]中提到5G安全的两个目标,其中一项是:提供方法和机制来保护建立在5G平台上的服务。基于这个目标,新架构,新挑战:5G核心网业务安全问题与异常检测一文中提出了网元服务所面临的三个基本问题:调用序列,调用参数异常与调用频率异常,阐释了针对这三种异常的检测思路,并提出了针对序列异常的解决方案。本文在这篇文章的基础上进行进一步研究与实验,设计了网元服务异常检测原型,明确了原型中各个模块的技术路线。将已有网元威胁分析输出的场景在原型进行测试,输出检测结果。结果中包含将异常场景映射到检测基线的全部特征。
前言 图表可形象展示统计数据的特征(如分类、趋势等),以“可视化”方式直观传达信息,帮助用户抓住重点。在管理端后台系统中,往往使用图表来呈现监控数据,便于运维人员快速获取数据特征,理解业务状况。但是,如果对图表或图表基础元素的使用理解有偏差,那所设计的图表将会对用户产生误导。 本文基于控制台图表设计所整理的材料基础上,浅析图表选择、基础元素、使用场景等注意细则,以在业务中更好了解和运用图表。文章结构如下: 图表价值 恰当使用图表呈现数据 图表使用场景 图表基础元素 图表状态 其他注意点 总结 图表价值 通
孟庆江、田忠毅,中金财富证券股份有限公司信息技术部,本文选自《交易技术前沿》总第四十期文章(2020年9月)。
用机器学习做时间序列异常检测 (TAD) 受到有缺陷的评估指标、不一致的基准测试、缺乏模型选择适当性论证的困扰。
前言 图表可形象展示统计数据的特征(如分类、趋势等),以“可视化”方式直观传达信息,帮助用户抓住重点。在管理端后台系统中,往往使用图表来呈现监控数据,便于运维人员快速获取数据特征,理解业务状况。但是,如果对图表或图表基础元素的使用理解有偏差,那所设计的图表将会对用户产生误导。 本文基于控制台图表设计所整理的材料基础上,浅析图表选择、基础元素、使用场景等注意细则,以在业务中更好了解和运用图表。文章结构如下: 图表价值 恰当使用图表呈现数据 图表使用场景 图表基础元素 图表状态 其他注意点 总结 图表价值 通常
来源:机器之心本文约2600字,建议阅读9分钟在时间序列预测任务上,你不妨试试简单的机器学习方法。 在深度学习方法应用广泛的今天,所有领域是不是非它不可呢?其实未必,在时间序列预测任务上,简单的机器学习方法能够媲美甚至超越很多 DNN 模型。 过去几年,时间序列领域的经典参数方法(自回归)已经在很大程度上被复杂的深度学习框架(如 DeepGIO 或 LSTNet 等)更新替代。这是因为传统方法可能无法捕获长期和短期序列混合传递的信息,而深度学习方法的思路是掌握数据中的跨时非线性依赖。从结果来看,这些深度学习
大型语言模型(LLMs)具有出色的能力,但由于完全依赖其内部的参数化知识,它们经常产生包含事实错误的回答,尤其在长尾知识中。
快手是中国领先的短视频和直播社区,拥有超过3亿的DAU和丰富的社交数据。快手秉承的价值观是真实、多元、美好、有用,致力于提高每一个用户独特的幸福感。而推荐覆盖了快手大部分流量,极大地影响整体生态,并直接作用于 DAU 和 APP 整体时长。短视频推荐需要更多地考虑生态,优化目标和约束非常多,包括消费侧指标、生产侧指标和社交侧指标。
建立基线对于任何时间序列预测问题都是至关重要的。
机器之心报道 编辑:杜伟、陈萍 在深度学习方法应用广泛的今天,所有领域是不是非它不可呢?其实未必,在时间序列预测任务上,简单的机器学习方法能够媲美甚至超越很多 DNN 模型。 过去几年,时间序列领域的经典参数方法(自回归)已经在很大程度上被复杂的深度学习框架(如 DeepGIO 或 LSTNet 等)更新替代。这是因为传统方法可能无法捕获长期和短期序列混合传递的信息,而深度学习方法的思路是掌握数据中的跨时非线性依赖。从结果来看,这些深度学习方法不仅优于 ARIMA 等传统方法和梯度提升回归树(Gradien
概率时间序列预测是在广泛应用中出现的一个重要实际问题,包括金融、天气预报、脑成像和计算机系统性能管理等领域。针对这一任务,已经提出了各种方法,从传统的自回归模型到最近基于深度学习架构的神经预测方法。这些以前的方法大多集中在用来自相同领域的数据训练模型,以执行预测任务。
提出了一种基于特征的全景图像序列同时定位和建图系统,该系统是在宽基线移动建图系统中从多鱼眼相机平台获得的.首先,所开发的鱼眼镜头校准方法结合了等距投影模型和三角多项式,以实现从鱼眼镜头到等效理想帧相机的高精度校准,这保证了从鱼眼镜头图像到相应全景图像的精确转换.其次我们开发了全景相机模型、具有特定反向传播误差函数的相应束调整以及线性姿态初始化算法.第三,实现的基于特征的SLAM由初始化、特征匹配、帧跟踪和闭环等几个特定的策略和算法组成,以克服跟踪宽基线全景图像序列的困难.我们在超过15公里轨迹的大规模彩信数据集和14000幅全景图像以及小规模公共视频数据集上进行了实验.
今天给大家介绍的文章是哥本哈根大学计算机科学系 Wouter Boomsma 等人发表在 Nature Communications 上的文章 Learning meaningful representations of protein sequences。在本文中,作者探索了迁移学习和可解释性学习中的表示。在迁移学习中,作者证明了现在的一些实践只能产生次优的结果。在可解释性学习中,把几何信息考虑在内有助于提升可解释性,并且可以帮助模型揭示被掩盖的生物信息。
EEG提供了一种测量丰富的大脑活动即神经元振荡的方法。然而,目前大多数的脑电研究工作都集中在分析脑电数据的事件相关电位(ERPs)或基于傅立叶变换的功率分析,但是它们没有利用EEG信号中包含的所有信息——ERP分析忽略了非锁相信号,基于傅里叶的功率分析忽略了时间信息。而时频分析(TF)通过分离不同频率上功率和相位信息,可以更好地表征脑电数据中包含的振荡,TF提供了对神经生理机制更接近的解释,促进神经生理学学科之间的连接,并能够捕获ERP或基于傅里叶分析未观察到的过程(如连通性)。但是,本文献综述表明,脑电时频分析尚未被发展认知神经科学领域所广泛应用。因此,本文从概念上介绍时频分析,为了让研究人员便于使用时频分析,还提供了一个可访问脚本教程,用于计算时频功率(信号强度)、试次间相位同步(信号一致性)和两种基于相位的连接类型(通道间相位同步和加权相位滞后指数)。
作者 | Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy
从视觉科学、心理语言学到市场营销和人机交互,眼球追踪在科学界广泛应用。但令人惊讶的是,到目前为止,在眼动数据的预处理步骤中几乎没有持久性和透明性,这使得许多研究的重复和再现性变得困难。为了增加可重复性性和透明性,本文的作者团队创建了一个基于R语言的被称为gazeR的眼动分析工具包,用于读取和预处理两种类型的数据:注视位置数据和瞳孔大小数据。
随着微服务架构的普及,微服务系统所面临的安全问题受到越来越多的关注。而API安全是微服务系统安全的重要组成部分。本文从业务安全层面介绍微服务架构中API所面临的安全问题和解决思路。
本文从两篇高影响力的时序预测文章谈起,其中一篇是18年放在arXiv上的文章,文中总结性地提出了时序卷积网络(TCN: Temporal Convolutional Network),短短两三年引用数已经破千,TCN作为一种基准方法被广泛应用于各种时序预测问题。
搜索代码进行重用、调用,或者借此查看别人处理问题的方式,是软件开发者日常工作中最常见的任务之一。然而,代码搜索引擎的效果通常不太好,和常规的 web 搜索引擎不同,它无法充分理解你的需求。GitHub 团队尝试使用现代机器学习技术改善代码搜索结果,但很快意识到一个问题:他们无法衡量改善效果。自然语言处理领域有 GLUE 基准,而代码搜索评估领域并没有适合的标准数据集。
今年发布8月份发布的一篇有关长时间序列预测(SOTA)的文章,DLinear、NLinear在常用9大数据集(包括ETTh1、ETTh2、ETTm1、ETTm2、Traffic等)上MSE最低,模型单变量、多变量实验数据:
因此,Google 提出了一种新型的文本生成模型 LaserTagger,该模型旨在解决 seq2seq 模型运行过程中的上述缺陷,可以预测将将源文本转换为目标文本的一系列生成操作。Google 发布了相关文章介绍了这一开源文本生成模型,我们将内容整理编译如下。
领取专属 10元无门槛券
手把手带您无忧上云