暂无搜索历史
戴上智能眼镜,看到一家餐厅就能问"这家评分怎么样",AI 不仅看得懂还能帮你搜出来——这不是概念视频,而是一个已经跑通的开源项目。
反无人机检测正在成为低空安全领域的核心需求,但无人机目标尺寸小、背景复杂、尺度变化剧烈,传统检测器在这一场景下的精度和召回率往往难以兼顾。
无人机拍摄的高分辨率图像中,风电叶片只占画面的一小部分,缺陷更是仅占像素总量的0.1%~1%——传统检测器直接在全图上做推理,背景干扰大、小目标漏检多。
2026 年 3 月 9 日,Anthropic 发布了 Code Review for Claude Code——一个多 Agent 自动审查 PR 的系统。...
天然气管道泄漏检测是一个"慢不得"的高风险问题——延误几分钟,可能意味着爆炸、环境污染和巨额损失。近年来,联邦边缘AI驱动的自主无人机蜂群(Federated ...
微调大模型是让通用模型适配具体业务的关键步骤,但高显存占用和复杂的代码配置一直是两道门槛——一块 24GB 的消费级显卡往往连 7B 模型的全量微调都跑不动,而...
边缘设备上的密集预测任务(目标检测、实例分割、人体姿态估计)至今仍被 YOLO 等 CNN 架构主导,紧凑型 Vision Transformer(ViT)即使...
为什么你的 Agent 总是"失忆"?你给它讲过一遍用户偏好,下次对话它又问一遍;你纠正了它的错误,过几轮它还是犯同样的问题。
SAM 3 发布后迅速成为视觉语言模型的热门话题,但一个实际问题随之而来:它每次只处理一个文本提示,要检测 N 个类别就要跑 N 遍完整推理,80 类 COCO...
现有零样本异常图像生成方法大多仅依赖文本提示引导扩散模型,语义控制力有限,生成的异常掩码精度也不够高。
编码智能体(Coding Agent)能自动写代码、跑脚本、调 bug、迭代优化,但如果交给它一个视觉任务——比如数一张图里有多少只鸟、从视频里跟踪计数车辆、识...
语音 AI 的模型越来越多——ASR 有 Deepgram、Whisper,LLM 有 GPT、Claude、Gemini,TTS 有 ElevenLabs、A...
大型光伏电站中,一块面板出现热斑或裂纹,肉眼难以在数千块面板中定位它。无人机搭载热红外相机的巡检方案已成为行业标配,但拍下来的热图交给哪个检测模型更合适?YOL...
多模态大模型(MLLM)在医学影像诊断上有一个根本性矛盾:它们能"看"图像、能"说"结论,但做不好临床诊断中最关键的一步——定量分析。测量杯盘比、计算射血分数、...
文档 OCR 领域正在经历一场参数量军备竞赛——Qwen3-VL 用 235B 参数拿到 89 分,Gemini-3 Pro 拿到 90 分。但 OmniDoc...
中文语音识别的开源方案越来越多,但它们不在同一个层面上——有的是模型,有的是工具包,有的是部署运行时。直接把它们摊在一张表里比"谁更好",容易越看越糊涂。本文把...
重构一个模块,过去要半天;现在一个 agent 会话,5 分钟。给项目补全测试,过去"不值得花时间";现在 agent 跑一遍,1 分钟。当写代码的成本从小时级...
住宅建筑的外立面检测传统上依赖人工——爬脚手架、挂绳索、拿检测仪逐面墙检查。一栋 34 层高楼,人工检测需要 2-3 天,覆盖率只有 40-60%,而且肉眼看不...
AI 做工业质检,大多数人想到的是摄像头+深度学习自动识别缺陷。但 BMW 在 Regensburg 工厂做了一件不一样的事:不是用 AI "看"缺陷,而是用生...
多目标跟踪(MOT)的主流做法是"检测+关联":先检测出每一帧的目标,再用匈牙利算法、IoU 匹配等手工设计的启发式方法把前后帧的目标对应起来。这些方法能用,但...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址