首页
学习
活动
专区
工具
TVP
发布

AIGC 先锋科技

专栏成员
153
文章
27958
阅读量
20
订阅数
字节提出 NEST-RO,语音自我监督预训练的下一个令牌预测 !
近年来,在语音自我监督学习(SSL)技术领域取得了巨大的进步,受到学术和产业界的广泛关注。通过从大量的未标注语音数据中挖掘信息,语音 SSL 可以为下游语音任务提供强大的表示或表示模型[8]。 SSL 正在将下游任务的性能推向新的高峰。例如,语音 SSL 已促使许多 ASR 模型在各种基准测试上实现最先进(SOTA)的性能 [9, 10]。这些研究证明了语音 SSL 在语音应用中的巨大潜力。
AIGC 先锋科技
2024-10-14
210
港中文提出少即是多,高效多模LLMs的简单但有效的令牌减少方法 !
随着大规模语言模型(MLLM)的快速发展,它们在各种领域展现出优越甚至超人的性能。然而,这种进步伴随着这些模型消耗资源的显著增加。因此,研究社区开始更加关注开发高效的大型语言模型。
AIGC 先锋科技
2024-10-12
790
WaveletGPT 小波与大型语言模型相遇 !
语言模型(LLMs)引领了人工智能模型的超级复兴,并涉及到每个科学和工程学科。这场革命的核心是 Transformer 架构,最初是针对自然语言处理中的机器翻译提出的。 Transformer 架构成为了由OpenAI首次提出的GPT 语言模型的(Brown等人,2020年) Backbone ,从而彻底改变了这一领域。现代LLMs仍然使用一个简单的目标进行训练:在提供前一个上下文的情况下,预测下一个 Token ,保持因果关系假设。确切的配方已经证明不仅适用于语言,还可以应用于机器人 ,蛋白质序列(Madani等人,2020),原始音频波形(Verma和Chafe,2021),音频和音乐 Token ,视频(Yan等人,2021)等。这种简单的配方(将 Token 化/创建嵌入并将其 feeds Transformer )也催生了许多非因果设置,视觉 Transformer ,音频 Transformer (Verma和Berger,2021)和视频 Transformer 等的架构。最近与Google类似 Gemini 家人的多模态语言模型的突然涌现(团队,2023年)以及多模态模型像Chameleon(2024年)将铺平未来另一波应用的道路。随着规模的增加,例如GPT-3的一些模型已经达到了百亿参数(Brown等人,2020年)的水平,而Google的Switch Transformer甚至达到了 trillion 参数(Fedus等人,2022)。这导致最近出现了人工智能研究正慢慢脱离学术界,并受到行业研究员的限制的观点。如最近由Nix(2024年)撰写的一篇华盛顿邮报文章中所述。
AIGC 先锋科技
2024-10-11
1010
北大提出多模态 Situated 问题回答,三维场景中的多模态坐标推理 !
理解并与现实世界的3D物理世界进行交互是实现具有身体智能的AI的基本需求。为代理集成情境意识到模型中是一个中心挑战。特别是在增强代理的理解和推理、在3D场景中进行规划方面,情境意识具有关键作用。例如,情境意识可以连接代理的多模态局部上下文(比如,文本描述,图像,点云等)和全局环境状态。
AIGC 先锋科技
2024-10-10
1060
腾讯 & 清华 & 南大提出 Open-MAGVIT2 实现自动登记视觉生成民主化的开放源代码项目 !
大型语言模型(LLMs)基于自回归 Transformer 在自然语言生成方面具有优势,主要归因于强大的上下文建模和可扩展性。受到这一启发,新兴研究将自回归模型引入视觉生成。这些方法首先使用向量量化器对图像进行标记化和解标记化,然后使用自回归 Transformer 对离散的图像标记序列进行建模。
AIGC 先锋科技
2024-10-10
700
LLM-MDE,多模态框架,通过语言理解深度,可以从单目图像中理解深度 !
单目深度估计(MDE)对于诸如自动驾驶等应用至关重要,其中准确的环境感知对安全性至关重要。基于手动设计的特征和几何模型的传统MDE方法在复杂场景中经常表现不佳。最近深度学习(DL)的进步已经革新了MDE ,提供了强大的性能,同时无需受制于物理或需要消耗大量资源的特征工程。
AIGC 先锋科技
2024-10-08
1090
清华 & MIT & 英伟达联合提出视觉理解与生成相结合的统一基础模型 VILA-U !
近年来,大型语言模型(LLM)在各种语言任务中表现出优越的能力。它们吸引人的特性,如遵循指令、零样本泛化和少样本上下文学习,激励研究行人将它们与视觉模型结合,构建视觉语言模型(VLMs)以应对多模态任务。很多工作 已经投入到了这个领域,在视觉语言理解基准测试上取得了显著的性能提升。在这些工作中,视觉输入通过像CLIP [58]这样的视觉基础模型映射到LLMs的语义空间,通过包括文本图像对齐训练目标来将两种模态联系起来。
AIGC 先锋科技
2024-09-30
830
Eir-8B 专为医学领域打造的先进大语言模型 !
近年来人工智能(AI)和大型语言模型(LLMs)在自然语言处理(NLP)任务上取得了显著的进步,大大提升了各种功能的使用效率,如客户服务、语言翻译和内容生成。在这个背景下,AI在多个领域,尤其是医疗领域的辅助作用具有尤为重要的意义。
AIGC 先锋科技
2024-09-29
950
视觉语言模型的视觉提示何时优于线性探究 ? 清华 & IBM & 港中文提出了一种使用视觉提示近似方法的 LLR 评分 !
在将迁移学习应用于下游任务时,需要对预训练模型进行特定修改。例如,线性检测(LP)涉及调整模型中最后一层的线性层,而全精细调优涉及修改模型的所有参数。然而,在迁移学习微调的新兴领域中,视觉提示(VP)提供了一种不需要改变预训练模型的方法。
AIGC 先锋科技
2024-09-29
900
超越图像检索:利用CLIP文本表示增强语言模型的视觉知识 !
自回归语言模型是自然语言理解和生成的参考系统。然而,由于文本语料库中的报告偏差(Shwartz和Choi,2020年),语言模型缺少视觉知识,这意味着它们不了解作者世界的视觉属性,在预测真实物体的典型颜色、尺寸和形状等方面遇到困难,例如。Alper等人尝试通过为语言模型增加视觉知识来克服这些问题。但特别关注被 Mask 的语言模型(MLM)。MLM在文本生成方面的限制较大,其应用范围不如自回归语言模型广泛。VaLM 是自回归语言模型视觉增强的最新实例,它利用预热的CLIP多模态模型(Radford等人,2021年)进行图像检索和表达以提高下一个标记预测。为有效使用视觉信息,他们在基础LM中添加了一个融合层,允许文本标记在预测下一个标记之前关注视觉表示。他们证明,与VaLM相比,Blind-VaLM在视觉语言理解(VLU)的性能上有显著提升,同时保持了基础LM的NLU和文本生成能力。
AIGC 先锋科技
2024-09-27
990
上海 AI Lab 提出 GenAgent | 使用自动工作流程生成构建协作AI 系统-ComfyUl 上的案例研究 !
近期AI的发展被日益重要的协作AI系统的成功所定义,这些系统整合了多种模型和工具作为整体协作系统。ChatGPT Plus(OpenAI,2024年)的成功表明将诸如网页浏览、图像生成和代码执行等任务集成到一个单一的聊天代理的可能性。与传统AI模型作为单一实体的不同,协作AI系统整合多个AI组件,每个组件贡献独特的能力来解决复杂问题。向整合方向的转变对于实现最先进的结果至关重要,因为整合了多样AI功能的优势在一个统一框架内。
AIGC 先锋科技
2024-09-26
960
无需训练,多路径推理机制,利用 LVLMs 的内生能力减轻错觉!
视觉语言模型(LVLMs)已经成为人工智能领域不可或缺的里程碑。这些由LVLMs模型自动生成的具有上下文相关性的文本描述可以广泛应用于各个领域,如图1所示,如医疗健康,自主系统机器人等。
AIGC 先锋科技
2024-09-25
980
上交通提出 AdR-Gaussian ,实现310%的渲染速度提升 !
新颖视角合成(NVS)旨在给定一组输入视图的情况下生成新视角的光照真实渲染结果,由于其在新颖视角合成在模型设计[Chen等人2023a; Tang等人2023]、自动驾驶[Cao等人2024; Matsuki等人2023]和虚拟现实 [Qian等人2023; Wang等人2023]等领域的广泛应用,吸引了广泛关注。3D高斯散射(3DGS)模型[Kerbl等人2023]是一种最近的3D表示方法,它使用一组3D高斯椭球来模拟3D场景,实现了复杂场景的高质量实时渲染。然而,高斯光栅化管线由于可避免的串行高斯剔除和因像素间渲染高斯数量不同导致的负载不均,存在不必要的开销,这限制了3D高斯的渲染速度并阻碍了其更广泛的应用。
AIGC 先锋科技
2024-09-25
1240
密集与稀疏特性提取, 利用自然语言Query ,2D-3D联合训练方案匹配和重复场景检测 !
3D计算机视觉的迅速发展在理解与解释三维世界方面取得了重要突破。然而,当作者尝试匹配自然语言和2D视觉领域中大规模预训练模型的成就时,要在一系列3D感知任务上实现鲁棒性能是非常具有挑战性的。通往3D基础模型的道路受到3D数据相对稀缺的阻碍,尤其是在获取质量标注方面。与此同时,3D模型需要与语言或语言-视觉模型共同存在并进行通信,以便最优地使用先验知识来感知、推理和作用于物理世界。
AIGC 先锋科技
2024-09-25
920
HiPrompt 在更高分辨率图像生成上的表现,超越 SOTA !
[14]稳定弥散(Stable Diffusion)引起了广泛关注,并推动了其在文本到图像(T2I)生成领域的广泛应用,尤其是在SDXL [13]的训练分辨率以上的图像生成领域。现有的工作研究了无训练图像生成的训练范式,以应对巨大的计算资源和时间的挑战。探索了一些基于块的文本到图像生成方法,这些方法将多个重叠的去噪路径融合在一起。然而,它们受到模式重复和结构伪影问题的困扰。例如,MultiDiffusion [15]由于将所有区域的所有控制集成到生成过程中,因此受到严重目标重复的影响。尽管DemoFusion [16]尝试通过在残差连接和膨胀采样中引入全局语义信息来保持准确的全球结构,但它仍然受到目标重复问题和错误局部结构的影响。作者发现目标重复问题是由于输入提示与局部块在其基于块的去噪过程中不匹配的语义之间的影响:输入提示倾向于描述整体内容,而块生成在更高的尺度上只包含局部目标。这促使作者提出层次化提示,以准确地在不同尺度上指导超分辨率图像生成。
AIGC 先锋科技
2024-09-20
930
ContextVLM 使用视觉-语言模型实现自动驾驶车辆的环境和驾驶上下文识别 !
自动驾驶(AV)在现实生活中部署需要详细规定和应用操作设计域(ODDs)。ODDs是指自动驾驶车辆在广泛测试和预计安全操作的地理位置的道路和环境条件。核心自动驾驶功能(如感知、规划、行为和定位)的性能很大程度上取决于操作环境。特别是,基于传感器的感知可能受到雪、雾、雨和低光照条件的影响。运动规划器生成的路径和速度轨迹也可以从操作域知识中受益,如道路是上坡还是下坡、是否铺砌、鹅卵石或未经铺设。在周围区域的工作区知识有重大的安全意义[1]。此外,AV在乡村地区、城市峡谷、隧道或公路上的驾驶对定位性能有显著影响[2],例如,因为全球导航卫星系统(GNSS)精度的变化。然而,现有的研究通常忽略了可以喂养和影响自动驾驶堆叠的通用的上下文识别需求。
AIGC 先锋科技
2024-09-20
600
Lexicon3D: 探索复杂3D场景理解的视觉基础模型 !
近年来,复杂的3D场景理解成为计算机视觉的一个重要领域,涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型,方法如[42; 64; 68; 84; 91]已经取得了有前途的结果,从而使一系列实际应用得以实现,从自动驾驶,机器人学[57; 108],到多模态代理[1; 78]。尽管有许多研究[6; 67; 99]提供了关于视觉基础模型在2D图像任务的使用的指导,但3D场景的战略仍然不清楚。对复杂实际场景的系统化理解不仅包括语义和深度意识[6],这可以在2D领域进行评估,还包括几何意识和对多模态信息进行推理和定位任务的能力。为了填补这一空白,作者的工作评估了不同类型的视觉基础模型对复杂场景理解的适用性,并寻求确定每种模型在不同场景中的优势和局限。最终,这项研究旨在为场景理解系统的更有效性、高效性的发展做出贡献。
AIGC 先锋科技
2024-09-13
1210
无需访问整个数据集:OnZeta在零样本迁移任务中的性能提升 !
视觉语言预训练最近引起了很多关注,主要是因为在各种下游任务上表现出令人印象深刻的零样本迁移性能。这种期望的性质主要来自将视觉和文本空间对齐。例如,最常用的预训练方法之一,即 CLIP [20],包括针对图像和文本分别学习的视觉编码器和文本编码器。这些编码器通过最小化定义在图像-文本对上的对比损失进行优化。该损失旨在将图像及其相应的文本描述拉在一起,同时将无关的文本或图像推开 [18]。
AIGC 先锋科技
2024-09-12
900
FIDAVL:基于视觉语言模型的假图像检测与归因 !
在过去的二十年里,生成和编辑照片的技术发生了迅速的变化。这一变化带来了视觉内容可以轻松创建和编辑的时代,留下了极少的感知痕迹。因此,人们逐渐意识到作者正站在一个真实图像与计算机生成图像难以区分的世界的边缘。最近生成模型的发展进一步推动了合成图像的质量和高保真度,使它们可以在条件情况下进行上下文操作和扩展媒体合成的范围。然而,在这些进步的同时,一个问题仍然存在,即这些技术的恶意使用可能带来的潜在影响。这种担忧受到公众的关注,因为其对视觉安全、法律框架、政治格局和社会规范产生了破坏性的影响。因此,开发能减轻这些生成模式威胁的有效的视觉法医技术至关重要。
AIGC 先锋科技
2024-09-11
1040
超越文本理解:MMMU-Pro对多模态模型真实推理能力的评估!
最近,多模态大型语言模型(MLLMs)的进步已经使得在结合文本和视觉信息处理复杂的推理任务上取得了显著的进展。例如,GPT-4o 在MMMU基准测试上达到了69.1%的准确率。
AIGC 先锋科技
2024-09-10
1460
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档