首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    无监督对话数据清洗利器:Data Purification Framework

    作者 | 吴金龙 现在一提到聊天机器人,大家就会想起各种算法模型,端到端、生成式、深度增强学习。有一种给我足够多足够好的数据,我就能用算法突破图灵测试的风范。可恨的是,就是没够多够好的数据。相对于英文,中文可用的公开数据集少之又少。 在聊天机器人里,可用的公开对话数据就更少了,比如闲聊类的也就小黄鸡、华为微博数据,而且这些数据也都还不够好。不论是公开数据还是自己抓的各种数据,使用前的清洗都是必须的。清洗数据是个苦活,数据量大时就算投入大量人力也未必有好的产出。本文介绍爱因互动正在使用的一种数据清洗方法,我们

    01

    机器学习(19)——特征工程数据收集数据清洗数据不平衡特征转换增维降维特征选择

    前言:特征工程是机器学习的重点,他直接影响着模型的好坏。 数据收集 在进行机器学习之前,收集数据的过程中,我们主要按照以下规则找出我们所需 要的数据: 业务的实现需要哪些数据? 基于对业务规则的理解,尽可能多的找出对因变量有影响的所有自变量数据。 数据可用性评估 在获取数据的过程中,首先需要考虑的是这个数据获取的成本; 获取得到的数据,在使用之前,需要考虑一下这个数据是否覆盖了所有情况以及这个数 据的可信度情况。 数据源 用户行为日志数据:记录的用户在系统上所有操作所留下来的日志行为数据 业务数据: 商

    05

    机器学习-从高频号码中预测出快递送餐与广告骚扰

    由头 1、笔者最近在做机器学习嘛,上次发了一篇文章,这周发现有大问题,此次算是对上篇的补充与说明。 2、算法基本完成,在进行收尾的工作,今天共享给大家思路,涉及到具体的东西,应该就会隐藏。 3、昨天在聊申请专利的事,按照正常逻辑,此算法出来后,会被公司用于申请专利,虽然署名是我,但是心里多少不爽。本着服务大众的心态,共享一下步骤,希望大伙一起进步。 📷 内容 1、首先卖个蠢萌的问题,机器学习啥子最重要? 人最重要,钱最重要!!!!不信你试试不给我钱,看我做不做。 所以,请记住笔者的话,做监督学习,需要: 大

    05

    美团点评联盟广告的场景化定向排序机制

    前言 在美团点评的联盟广告投放系统(DSP)中,广告从召回到曝光的过程需要经历粗排、精排和竞价及反作弊等阶段。其中精排是使用CTR预估模型进行排序,由于召回的候选集合较多,出于工程性能上的考虑,不能一次性在精排过程中完成候选集的全排序,因此在精排之前,需要对候选广告进行粗排,来过滤、筛选出相关性较高的广告集合,供精排使用。 本文首先会对美团点评的广告粗排机制进行概要介绍,之后会详细阐述基于用户、天气、关键词等场景特征的广告粗排策略。 广告粗排机制简介 广告粗排框架对引擎端召回的若干广告进行排序,并将排序的结

    014
    领券