首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多模态图表理解新SOTA: TinyChart-3B,兼顾性能和效率

作为一种重要的信息来源,图表(Chart)能够直观地展示数据关系,被广泛地应用于信息传播、商业预测和学术研究中 [1]。随着互联网数据的激增,自动化图表理解受到广泛关注,近期诸如GPT-4V、QwenVL-Max和Gemini-Ultra等通用闭源多模态大模型都展现出一定的图表理解能力,开源模型Chartllama [2]、ChartAst [3]等也在图表问题回答、图表总结和图表转换等任务上取得强大的性能。然而,目前开源的图表理解模型有以下三个局限:(1)模型参数规模庞大,难以部署到应用中。例如Chartllama包含13B参数,无法直接部署到单张小于26 GB显存的消费级显卡上 [4]。(2)模型容易出现数值错误,尤其是回答涉及数值计算的问题时 [3]。(3)模型无法高效处理高清图片,而许多关键信息(比如OCR文本)往往需要在较高分辨率下才清晰可见。并且,考虑到标准视觉Transformer会产生较长的视觉特征序列,直接提高输入分辨率又会带来计算效率问题。

01
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    员工工作服穿戴AI识别算法 yolov5

    员工工作服穿戴AI识别算法是基于yolov5+python网络模型人工智能技术,yolov5+python网络模型算法对现场人员的工作服穿戴情况进行实时监控,并对违规情况将自动发出警报。我们选择当下YOLO卷积神经网络YOLOv5来进行火焰识别检测。现版本的YOLOv5每个图像的推理时间最快0.007秒,即每秒140帧(FPS),但YOLOv5的权重文件大小只有YOLOv4的1/9。目标检测架构分为两种,一种是two-stage,一种是one-stage,区别就在于 two-stage 有region proposal过程,类似于一种海选过程,网络会根据候选区域生成位置和类别,而one-stage直接从图片生成位置和类别。今天提到的 YOLO就是一种 one-stage方法。YOLO是You Only Look Once的缩写,意思是神经网络只需要看一次图片,就能输出结果。

    02

    武大最新妆容迁移模型 SSAT 效果超越PSGAN!上手超容易!AAAI 2022

    化妆迁移不仅是提取参考图像的化妆风格,而且是将化妆风格渲染到目标图像的语义对应位置。然而,大多数现有的方法侧重于前者而忽视后者,导致无法达到预期的结果。为了解决上述问题,我们提出了一种统一的对称语义感知变换器(SSAT)网络,该网络结合了语义对应学习来同时实现补足转移和补足移除。在SSAT中,提出了一种新的对称语义对应特征转移(SSCFT)模块和一种弱监督语义丢失模型,以便于建立精确的语义对应。在生成过程中,利用SSCFT对提取的化妆特征进行空间扭曲,实现与目标图像的语义对齐,然后将扭曲的化妆特征与未修改的化妆无关特征相结合,生成最终结果。实验表明,我们的方法获得了更加直观准确的化妆转移结果,与其他最先进的化妆转移方法相比,用户研究反映了我们方法的优越性。此外,我们还验证了该方法在表情和姿势差异、对象遮挡场景等方面的鲁棒性,并将其扩展到视频合成传输中

    02

    ai安全帽识别检测

    ai安全帽识别检测通过python+yolov5网络模型深度学习AI视频分析技术,ai安全帽识别检测对现场人员是否佩戴安全帽进行识别检测,ai安全帽识别检测一旦发现现场工人员没有按要求佩戴安全帽,自动进行预警并保存图像到本地同步提示后台人员及时处理。我们选择当下YOLOv5来进行安全帽识别检测。6月9日,Ultralytics公司开源了YOLOv5,离上一次YOLOv4发布不到50天。而且这一次的YOLOv5是完全基于PyTorch实现的!在我们还对YOLOv4的各种高端操作、丰富的实验对比惊叹不已时,YOLOv5又带来了更强实时目标检测技术。按照官方给出的数目,现版本的YOLOv5每个图像的推理时间最快0.007秒,即每秒140帧(FPS),但YOLOv5的权重文件大小只有YOLOv4的1/9。

    03

    河道船舶识别检测系统

    河道船舶识别检测系统通过ppython+YOLOv5网络模型算法技术,河道船舶识别检测系统对画面中的船只进行7*24小时实时监测,若发现存在进行违规采砂或者捕鱼立即自动抓拍触发告警。与C / C++等语言相比,Python速度较慢。也就是说,Python可以使用C / C++轻松扩展,这使我们可以在C / C++中编写计算密集型代码,并创建可用作Python模块的Python包装器。这给我们带来了两个好处:首先,代码与原始C / C++代码一样快(因为它是在后台工作的实际C++代码),其次,在Python中编写代码比使用C / C++更容易。OpenCV-Python是原始OpenCV C++实现的Python包装器。Python是一种由Guido van Rossum开发的通用编程语言,它很快就变得非常流行,主要是因为它的简单性和代码可读性。它使程序员能够用更少的代码行表达思想,而不会降低可读性。

    00

    人员聚众监控视频分析检测系统

    人员聚众监控视频分析检测系统通过python+yolov5深度网络模型技术,人员聚众监控视频分析检测算法对现场监控画面中人员异常聚众时,不需人为干预人员聚众监控视频分析检测算法提醒后台值班人员及时去处理、避免发生更大的不可控的局面。Python是一种由Guido van Rossum开发的通用编程语言,它很快就变得非常流行,主要是因为它的简单性和代码可读性。它使程序员能够用更少的代码行表达思想,而不会降低可读性。与C / C++等语言相比,Python速度较慢。也就是说,Python可以使用C / C++轻松扩展,这使我们可以在C / C++中编写计算密集型代码,并创建可用作Python模块的Python包装器。这给我们带来了两个好处:首先,代码与原始C / C++代码一样快(因为它是在后台工作的实际C++代码),其次,在Python中编写代码比使用C / C++更容易。OpenCV-Python是原始OpenCV C++实现的Python包装器。

    04

    山西煤矿电子封条算法 yolov5

    山西煤矿电子封条通过python+yolov5网络模型AI视觉技术,python+yolov5算法模型实现对现场人员行为及设备状态全方面自动识别预警。 YOLO系列算法是一类典型的one-stage目标检测算法,其利用anchor box将分类与目标定位的回归问题结合起来,从而做到了高效、灵活和泛化性能好,所以在工业界也十分受欢迎,接下来我们介绍YOLO 系列算法。Yolo意思是You Only Look Once,它并没有真正的去掉候选区域,而是创造性的将候选区和目标分类合二为一,看一眼图片就能知道有哪些对象以及它们的位置。Yolo模型采用预定义预测区域的方法来完成目标检测,具体而言是将原始图像划分为 7x7=49 个网格(grid),每个网格允许预测出2个边框(bounding box,包含某个对象的矩形框),总共 49x2=98 个bounding box。我们将其理解为98个预测区,很粗略的覆盖了图片的整个区域,就在这98个预测区中进行目标检测。

    00

    扫码

    添加站长 进交流群

    领取专属 10元无门槛券

    手把手带您无忧上云

    扫码加入开发者社群

    相关资讯

    热门标签

    活动推荐

      运营活动

      活动名称
      广告关闭
      领券