首页
学习
活动
专区
圈层
工具
发布

何恺明团队新作ResNext:Instagram图片预训练,挑战ImageNet新精度

新智元报道 来源:PyTorch、arxiv 编辑:大明 【新智元导读】近日,何恺明团队所在的Facebook AI推出ResNeXt-101模型,利用Instagram上的用户标记图片作为预训练数据集...事实上,如果没有有监督式预训练,很多方法现在还被认为是一种蛮干 ImageNet数据集实际上是预训练数据集。我们现在实际上对数据集的预训练了解相对较少。...本文试图通过研究一个未开发的数据体系来解决这个复杂的问题:使用外部社交媒体上数十亿的带有标签的图像作为数据源。该数据源具有大而且不断增长的优点,而且是“免费”注释的,因为数据不需要手动标记。...当在ImageNet-1k上训练(或预训练)相同模型时,分数分别为79.8%和43.7%。然而,我们的主要目标是提供关于此前未开发的制度的新实验数据。为此,我们进行了大量实验,揭示了一些有趣的趋势。...与ImageNet相比,我们使用的Instagram数据集可能包含每个图像的多个标签(因为用户指定了多个主题标签)。

1.2K20

微信、美团的APP“404页面”居然是这样的

这个时候加载无需获取用户的视觉焦点,只要在标题栏展示App正在加载,加载成功则标题栏loading消失,若因为网络错误未连接服务器,则在标题栏显示未连接状态。 白屏loading ?...下拉刷新广泛被运用于大多数App,这种加载机制,保证了用户能看到本地缓存数据的前提下,还能告知用户页面正在刷新,同时,用户还可以通过下拉的手势操作来自己选择重新加载数据,一定程度上满足了强迫症患者。...为了反之框架内的内容为空,会用占位符或者预设图片来填充。...这种加载机制对用户体验特别好,但是存在一个问题,就是要预测用户行为,加载其他数据,这样会消耗不少流量,所以建议在WiFi网络环境下采取这种预加载机制,而在蜂窝网络状态下则不采用预加载机制。...这个要和开发人员讨论沟通,确保预加载机制完美运行。 第三:异步处理。这一点做得好的App莫过于Instagram,不知道你有没有发现,用Instagram的时候会觉得特别流畅,即使在网络不好的情况下。

2.4K90
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    GitHub遭遇严重供应链“投毒”攻击

    Checkmarx 在一份技术报告中提到,黑客在这次攻击中使用了多种TTP,其中包括窃取浏览器cookie接管账户、通过验证提交恶意代码、建立自定义Python镜像,以及向PyPI注册表发布恶意软件包等...Checkmarx 指出,黑客对该平台频繁发起攻击的主要目的很可能是窃取数据并通过出售窃取的信息实现盈利。...恶意软件通过修改 Windows 注册表,在重启之间在被入侵机器上建立持久性。...cookie、自动填充、浏览历史记录、书签、信用卡详细信息和登录凭据。...利用被盗的 Instagram 会话令牌通过 Instagram API 检索帐户详细信息。 捕获击键并保存它们,可能会暴露密码和敏感信息。此数据将上传到攻击者的服务器。

    75510

    纽约蹭饭手册:怎样利用Python和自动化脚本在纽约吃霸王餐?

    对此,我决定无论如何先标注上图片的第一来源;如果我可以根据其他信息找出到图片的原始出处,那么我就继续在后面添加。通过这种方法,我基本上就可以标志出所有图片素材了。...模板填充 经过以上这三个步骤后,我便可以将采集到的信息填充到最后的模板中,为每一个帖子“量身定制”标题。 下面是最终的产出成果: 最后成功如下: ?...我设置了一个定时任务:每天早上8点,下午2点和晚上7:30调取我的API,完成所有的发布操作。...我的想法是通过直接与受众的兴趣用户直接互动以增加账号的曝光率。 我写的交互脚本从美国东部时间上午10点到下午7点运行,在我看来这段时间是Instagram最活跃的时间范围。...此外,从上午7:00 到下午 10:00,它通过分析点赞、关注和不关注的受众人群来修改自身的设置,并且通过一些算法来优化受众人群的定义。

    2K30

    纽约蹭饭手册:怎样利用Python和自动化脚本在纽约吃霸王餐?

    对此,我决定无论如何先标注上图片的第一来源;如果我可以根据其他信息找出到图片的原始出处,那么我就继续在后面添加。通过这种方法,我基本上就可以标志出所有图片素材了。...模板填充 经过以上这三个步骤后,我便可以将采集到的信息填充到最后的模板中,为每一个帖子“量身定制”标题。 下面是最终的产出成果: 最后成功如下: ?...我设置了一个定时任务:每天早上8点,下午2点和晚上7:30调取我的API,完成所有的发布操作。...我的想法是通过直接与受众的兴趣用户直接互动以增加账号的曝光率。 我写的交互脚本从美国东部时间上午10点到下午7点运行,在我看来这段时间是Instagram最活跃的时间范围。...此外,从上午7:00 到下午 10:00,它通过分析点赞、关注和不关注的受众人群来修改自身的设置,并且通过一些算法来优化受众人群的定义。

    1.9K60

    实战 | 如何上线一个机器学习项目?

    从数据中学习 让我们继续看看专门用于从数据中学习的Canvas的流程,它是由数据源、收集数据、特征工程、建模等几部分组成的。 数据源 这一部分提出了一个关于我们可以使用哪些原始数据源的问题。...这一步不需要具体计划收集哪些数据,但会迫使你开始思考要使用的数据源。你需要考虑的一些数据源示例包括内部数据库、开放数据、域中的研究论文、API、网页抓取以及其他机器学习系统的输出等。...但是,你可以通过更具成本效益的方式获取数据。例如,Instagram允许其用户将其消息中的图像和配置文件报告为垃圾邮件。...用户免费为Instagram算法标记数据,给喜欢的帖子点赞并将不当内容报告为垃圾邮件。然后,Instagram使用这些用户反馈来打击欺诈和垃圾邮件帐户,并为每位客户提供个性化的消息。...受众规模和受众结构的重大变化可能使得我们需要使用新数据更新模型。 有时更新需要更多的时间和更多的处理能力。在这种情况下,我们需要在成本、时间和模型质量之间取舍。

    68610

    13亿参数,无标注预训练实现SOTA:Facebook提出自监督CV新模型

    机器之心报道 编辑:陈萍 Facebook AI 用 10 亿张来自Instagram的随机、未标注图像预训练了一个参数量达 13 亿的自监督模型 SEER,该模型取得了自监督视觉模型的新 SOTA,可能会为计算机视觉领域打开一个新篇章...对于文本来说,语义概念可以分解为离散的词,自监督学习在自然语言处理中已经取得突破,在数量越来越多的未标记文本上训练算法已使诸如问答、机器翻译、自然语言推理等应用程序取得了进展。...研究人员通过 Instagram 公开的 10 亿张图片进行模型训练。...图源:Facebook PriyaGoyal 介绍说,为了训练 SEER,Facebook 的团队使用了具有 32GB RAM 的 512 块英伟达 V100 GPU,耗时 30 天完成。...结果表明,SEER 在对 10 亿张 Instagram 公共图片进行预训练后,性能优于现有的 SOTA 自监督系统。

    93830

    2025年舆情公司技术实力与场景适配深度解析

    Brandwatch:社交洞察驱动的品牌舆情与消费者研究平台 (综合指数:★★★★☆ | 评分:9.1)- 社交 “深度挖掘器”:聚焦全球主流社交平台(如 Facebook、Twitter、Instagram...通过Brandwatch的深度分析,他们发现体育相关内容能有效吸引其核心受众。...Meltwater:全球视野的智能舆情与媒体洞察平台 (综合指数:★★★☆☆ | 评分:8.6)- 全球 “数据覆盖网”:涵盖新闻、社交媒体、博客、论坛等 10 万 + 数据源。...- 智能 “洞察生成器”:基于机器学习算法构建的舆情分析模型,结合用户自定义维度生成可视化洞察报告。...六数说故事 综合评分:95/100 (综合指数:★★★☆☆ | 评分:8.4)- 分析维度:消费者UGC语义挖掘- 数据资产:5000万+产品评价库- 独特价值:新品上市口碑预判舆情监测系统终究是辅助决策的工具

    24210

    Facebook首次揭秘:超过10亿用户使用的Instagram推荐算法是怎样炼成的?

    新智元报道 来源:Venturebeat 编辑:大明 【新智元导读】目前,每年约有5亿用户通过Instagram的自建推荐功能搜索和发现自己喜欢的内容,其背后的推荐引擎是怎样炼成的呢?...在目前Instagram大约10亿用户中,超过一半的人每月都通过Instagram Explore来搜索视频、图片、直播和各种文章。...Facebook称,Explore是个由三部分组成分级漏斗,使用自定义查询语言和建模技术,目前已提取了650亿个特征,每秒可以做出9000万次模型预测。而且,这些还只是冰山一角。...IGQL允许将不同的候选内容源表示为不同的子查询,这样Explore就可以在多种类型的内容源中为普通人找到成千上万的合格候选内容。 ?...最后,另一个具有全特征的模型将选择25个最佳候选内容,这些候选内容将填充至“explore”网格中。 ? 上图:当前最终通过模型架构的图示 有时,首次滤过模型会按照内容排名顺序模仿其他两个阶段的模型。

    1.1K20

    关于行业know-how与技术融合,在Python爬虫在特定领域的深度应用

    通过逆向APP的API(使用Frida、Objection等动态分析工具,或抓包分析HTTPS流量),可以直接调用内部API获取结构化数据,绕过前端渲染的复杂性。...通过特定国家的http代理ip,可以获取该地区的本地化价格(考虑汇率、税费和区域定价策略),构建全球价格监控体系。价格异常检测与数据清洗抓取的价格数据需要清洗和验证。...异常检测包括:价格突变的识别(可能是促销或数据错误)、价格格式的标准化(不同货币、单位)、以及缺失值的处理(缺货 vs 未抓取)。...Twitter/X提供相对开放的API(有严格速率限制),Instagram和TikTok主要基于APP且反爬严格,Reddit有完善的API但社区规则限制商业使用。...Python的transformers库提供预训练模型进行这些分析,但需要考虑领域适配(金融领域的"bullish"是正面,一般语境可能中性)和多语言支持。

    12810

    住宅代理技术驱动海外品牌Instagram数据采集:实操落地与营销分析案例

    请求,远超Instagram配额(普通未认证账号单IP单日上限500次,认证账号上限1000次);IP地域与行为不匹配:用国内IP采集欧美地区竞品,且无“跨时区浏览间隔”(10分钟内连续采集美国、英国、...层防护1.未认证账号API配额规则(单日500次);2.固定API调用模式识别;3.触发reCAPTCHA验证1.多账号更替(搭配“账号-IP绑定”);2.随机调整API调用间隔;3.高匿代理降低验证频率三...3.2.3避坑要点(海外社媒专属)不启用共享IP池:Instagram对共享IP管控比例达85%,“独享地域IP池”可将管控比例率降至2%以下;控制单IP采集量:单IP单日采集量≤800条,通过“IP时效设置...=null&&totalCountInstagram帖子数据");}//辅助:通过用户名获取Instagram...,黑五海外销售额同比提升35%,Instagram引流订单占比28%(同比+12%);稳定性与合规性:连续15天采集无IP管理助力品牌顺利通过亚马逊全球开店“数据合规审计”。

    22810

    干货|上线一个机器学习项目你需要哪些准备?

    从数据中学习 让我们继续看看专门用于从数据中学习的Canvas的流程,它是由数据源、收集数据、特征工程、建模等几部分组成的。 数据源 这一部分提出了一个关于我们可以使用哪些原始数据源的问题。...这一步不需要具体计划收集哪些数据,但会迫使你开始思考要使用的数据源。你需要考虑的一些数据源示例包括内部数据库、开放数据、域中的研究论文、API、网页抓取以及其他机器学习系统的输出等。...但是,你可以通过更具成本效益的方式获取数据。例如,Instagram允许其用户将其消息中的图像和配置文件报告为垃圾邮件。...用户免费为Instagram算法标记数据,给喜欢的帖子点赞并将不当内容报告为垃圾邮件。然后,Instagram使用这些用户反馈来打击欺诈和垃圾邮件帐户,并为每位客户提供个性化的消息。...受众规模和受众结构的重大变化可能使得我们需要使用新数据更新模型。 有时更新需要更多的时间和更多的处理能力。在这种情况下,我们需要在成本、时间和模型质量之间取舍。

    95520

    值得警惕!新型恶意软件FFDroider正对Facebook等社交帐户下手

    与许多恶意软件一样,FFDroider通过利用伪装成破解软件、免费软件、游戏和其他从 torrent站点下载的文件进行传播。...例如,该恶意软件通过滥用Windows Crypt API,特别是CryptUnProtectData函数,读取和解析Chromium SQLite cookie和SQLite Credential存储并解密条目...窃取和解密会产生明文用户名和密码,然后通过HTTP POST请求将其泄露到C2服务器。...FFDroider 会从 Facebook 广告管理器获取所有 Facebook 页面和书签、受害者朋友数量以及他们的帐户账单和付款信息,并使用这些信息在社交媒体平台上开展欺诈性广告活动,将恶意软件传播给更多的受众...;而如果成功登录 Instagram,FFDroider 将打开账户编辑页面,获取账户的电子邮件地址、手机号码、用户名、密码等详细信息。

    1.1K40

    全球主流社交媒体算法解析:Facebook、YouTube、Twitter如何利用算法推荐内容?

    随着越来越多的人开始通过他们接收新闻,Facebook改变了自己的算法以适应这种变化, 新闻出版机构致力于在这些平台上扩大受众,并越来越多地制作简短有趣又可共享的内容。...声誉:长期成为算法系统中的可靠信息源。 扩大社会影响力:我们必须能够“以其人之道还治其人之身”,以防止虚假信息在网上传播 各大社交平台正在不断地改变、完善和测试他们的算法。...内容所收到的点赞,评论,评论点赞,内容收藏,DM回复和通过DM发送的次数越多,算法对其赋予的权重就越大。 3 / 我们对Instagram算法了解多少?...1 / 推荐算法与儿童安全 在过去的几年中,YouTube的推荐算法遭到了抨击,因为有关儿童的视频中出现了问题评论,算法还自动填充恋童癖相关的内容。。...让你的目标受众喜欢你的视频 你应该这样做,而且你获得的点赞越多,算法给予你的权重越高。制作一些讨你的目标受众欢心的视频,并注意不要出现争议性内容,这样会导致负面评价。

    3.8K20

    Kubernetes 1.24: 卷填充器功能进入 Beta 阶段

    这意味着用户可以指定任何自定义资源作为 PVC 的数据源。 之前的一篇博客[1]详细介绍了卷填充器功能的工作原理。...简而言之,集群管理员可以在集群中安装 CRD 和相关的填充器控制器, 任何可以创建 CR 实例的用户都可以利用填充器创建预填充卷。 出于不同的目的,可以一起安装多个填充器。...单个填充器非常通用,它们可以与所有类型的 PVC 一起使用, 或者如果卷是来自同一供应商的特定 CSI 驱动程序供应的, 它们可以执行供应商特定的的操作以快速用数据填充卷,例如,通过通信直接使用该卷的存储...增强提案,卷填充器[5], 包含有关此功能的历史和技术实现的许多详细信息。 卷填充器与数据源[6], 在有关持久卷的文档主题中,解释了如何在集群中使用此功能。...我们通过将最前沿的模式民主化,让这些创新为大众所用。

    40330

    019_Web安全攻防实战:Web缓存中毒原理、高级攻击技术与全面防御策略深度指南

    关键在于识别未包含在缓存键中的可控制输入,通过这些输入注入恶意内容。...1.3.2 攻击面分析 主要攻击面: 未键化的HTTP头:未包含在缓存键中的HTTP头 参数处理逻辑:URL参数的处理和缓存键生成逻辑 缓存配置错误:不正确的缓存策略和配置 源站处理缺陷:源服务器对请求的处理逻辑问题...XSS 缓存中毒可用于持久化XSS 影响所有访问缓存资源的用户 开放重定向 缓存中毒可使重定向永久化 导致所有用户被重定向到恶意网站 信息泄露 缓存可存储并泄露敏感信息 扩大信息泄露范围 CSRF 可通过缓存预填充...攻击示例: GET /api/user/info HTTP/1.1 Host: api.example.com X-User-ID: 123 如果X-User-ID头未包含在缓存键中,但API使用它来返回用户数据...攻击方式:通过操纵未键化的HTTP头部,结合Instagram的缓存机制,实现XSS攻击的持久化。 影响范围:潜在影响Instagram的所有用户。

    53210

    云原生时代的风控集成:天远个人消费能力等级 API的 Golang 最佳实践

    利用Go的GMP模型,我们可以轻松并发处理成千上万个用户的信用评估请求,将“串行等待”转化为“并行预加载”,从而实现真正的实时决策。...以下是生产环境可用的完整实现,包含自定义的Padding逻辑和强类型结构体定义。...1.核心加密包(crypto/aes封装)API明确要求使用AES-128-CBC模式配合PKCS7填充,IV需随机生成并拼接在密文前。...1000查询为空returnnil,ErrNotFound未命中用户。这不应打断主流程,应视为“无数据”状态。...通过Go语言集成个人消费能力等级API,我们不仅获得了一个毫秒级响应的外部数据源,更利用Go的强类型和并发特性,构建了一套健壮、可扩展的风控防线。

    15610

    网页视频autoplay兼容及解决方案

    video元素使用了muted属性手动静音 2.用户未开启流量节省模式 Chrome 58版本以后,Chrome66版本以前: 满足下列条件可以自动播放: 1.视频的源是没有音轨的或...()满足下列条件可以自动播放: 1.视频的源是没有音轨的或video元素使用了muted属性手动静音 2.用户未开启流量节省模式 Chrome 66版本以后: ​ 在Chrome 58版本的基础上移除了...“未开启流量节省模式”的限制 Chrome in PC Chrome 66版本以前: ​ 完全支持自动播放 Chrome 66版本及以后: ​ 视频的源是没有音轨的或video元素使用了muted属性手动静音...检测自动播放,播放失败时回退到用户交互触发播放 通过play API返回的Promise检测自动播放成功还是失败 不使用autoplay属性,而是调用play API来尝试进行自动播放,高版本浏览器会返回一个...video事件或参数检测自动播放成功,通过超时判断自动播放失败 使用autoplay属性,或调用play API来尝试进行自动播放,通过监听由自动播放触发的play事件,监听timeupdate事件,查看

    2K10

    Elastic 自动导入功能:加速 AI 驱动的安全分析

    Elastic 安全现在比任何竞争对手都更快地添加自定义数据源,从而实现更广泛的可见性和更容易的 SIEM 实施。在企业 IT 环境中建立可见性本质上是困难的。...自动导入功能通过生成式 AI 自动开发自定义数据集成,将创建和验证自定义集成所需的时间从几天缩短到不到 10 分钟,大大降低了数据导入的学习曲线。...Elastic 进一步增强了这些功能,通过 Elastic AI 助手的 API 实现自动化,并通过集成 Google Gemini 模型扩展 LLM 选择。...自动导入功能解决了切换 SIEM 的最大难题之一:导入自定义数据源。该功能自动开发新的数据集成,降低了迁移的成本、复杂性和压力。...在几分钟内,该功能生成并验证一个自定义集成,准确地将原始数据映射到 ECS 和自定义字段,填充上下文信息(如相关的.* 字段)并分类事件。

    34521

    简单说说 Apipost 的几点使用体验

    众所周知,目前市面上有不少API相关的工具,比如 Postman、Apipost 等。最近我也尝试了下 Apipost ,简单说下我的一些使用体验。 先说说优点。...1、客户端支持不登录使用 痛点: 很多用户处于局域网环境(或者公司对网络限制严格),未登录无法使用旧版或者市面上大部分的API管理工具。 解决方案: Apipost 6 客户端支持不登录使用。...功能原则是在未登录状态下,完全满足个人开发者的需求: 接口:接口的新建、发送、保存 目录:目录的新建、发送、保存 文本:文本的新建、发送、保存 环境:环境的新建、保存 全局参数:全局参数的新建、保存 Cookie...解决方案: 支持一键自动生成漂亮、规范的文档,并且可以自定义分享有效期及权限。...解决方案: 通过自定义参数描述库,可以将大量参数进行预注释,并在输入参数时支持自动填充描述。 参数描述库节省了我不少重复录入参数描述的时间。 最后,再说说缺点 。

    68100
    领券