暂无搜索历史
本文的作者主要来自于浙江大学和字节跳动。第一作者是浙江大学计算机学院的博士生叶振辉,导师为赵洲教授,主要研究方向是说话人视频合成,并在 NeurIPS、ICLR...
这篇论文刚刚中稿 NeurIPS Oral(64/15671 =0.4%),作者分别来自澳门大学、德克萨斯大学奥斯汀分校以及剑桥大学。其中,第一作者田春霖是澳门...
论文地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10571945
本周,OpenAI 上线小模型 GPT-4o-mini,小模型赛道正式开卷。近期加入这一赛道的还有苹果。
注意力是 Transformer 架构的关键部分,负责将每个序列元素转换为值的加权和。将查询与所有键进行点积,然后通过 softmax 函数归一化,会得到每个键...
由 Meta AI 开发的 Segment Anything Model(SAM)在图像分割任务中表现杰出。然而,和其他类似模型一样,SAM 在某些特定的细分应...
现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。
在 2024 年全球开发者大会上,苹果重磅推出了 Apple Intelligence,这是一个全新的个性化智能系统, 可以提供实用的智能服务,覆盖 iPhon...
OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继...
今天给大家介绍了YotoR(You Only Transform One Representation),这是一种新的目标检测深度学习模型,结合了Swin Tr...
论文地址:https://arxiv.org/pdf/2312.10794.pdf
给一个包含了未知种类多个实体的没训练过的新样本(the query image),如何检测以及分割所有这些实例???
在 4 月 27 日召开的中关村论坛通用人工智能平行论坛上,人大系初创公司智子引擎隆重发布全新的多模态大模型 Awaker 1.0,向 AGI 迈出至关重要的一...
Meta公司推出了开源大语言模型Llama系列的最新产品—Llama 3,包含了80亿参数的Llama 3 8B和700亿参数的Llama 3 70B两个版本。...
论文地址:https://arxiv.org/pdf/2401.06426.pdf
第一个针对「Segment Anything」大模型的域适应策略来了!相关论文已被CVPR 2024 接收。
近年来,LLM 已经一统所有文本任务,展现了基础模型的强大潜力。一些视觉基础模型如 CLIP 在多模态理解任务上同样展现出了强大的泛化能力,其统一的视觉语言空间...
目前自动驾驶愈演愈烈,技术也越来越成熟,从不可能上路到现在大家抢着去感受该新技术,未来电车是趋势,该领域的技术会是研究者关注的热点的话题。今日,我们“计算机视觉...
源码地址:https://github.com/icey-zhang/SuperYOLO
今天一早,OpenAI 机器学习研究员 Jan Leike 宣布,OpenAI 开放了自己内部一直用于分析 Transformer 内部结构的工具。
暂未填写公司和职称
暂未填写个人网址