在每个医药企业和商业公司中,有着大量的不规范的终端名称,而且还有些是特定的中英文简称编码、省略连锁总部信息的连锁门店、包含特殊字符的终端名称等等。那么如何在任务处理阶段清除无效信息并提取有效的判定信息,通过特定搜索策略寻找到语义匹配的目标终端呢?
这就用到了未名企鹅所采用的医药流向终端名称精准匹配技术。
提到医药流向终端名称精准匹配技术就不得不介绍这个技术所应用到的工具---流向终端名称匹配系统
下面我们来系统了解一下流向终端名称匹配系统
匹配系统承担流向终端的自动搜索匹配功能,主要分为:
1、前置清洗
作用:清除干扰信息、统一转换符号
2、分词
作用:中文医药领域的终端名称分词引擎
3、渠道、类别、专有名词等成分信息识别
作用:针对分词序列识别短语上下文的成分信息
4、结构化搜索
作用:使用有效成分在标准行业库进行检索,对结果集进行打分排序,输出备选结果。前置清洗基于常见干扰特征库对噪声信息进行清除,保留有效信息用于后续分析;中文分词领域有很多工具可以借鉴并且能力都比较强,如结巴、hanLP、pkuseg等,各自实现原理各不相同,有的基于字典匹配的最短路径图搜索,有的使用机器学习实现的序列标注模型,还有的单纯使用分类算法实现的感知机分词器等。业界对分词的研究与实践比较成熟,常规情况下可达95%,突破的难点主要集中在歧义、未登录新词的识别。
而对于未名企鹅的流向终端名称的识别,多数情况下问题得到了简化,原因有三:
1.
流向终端名称信息较短,因此上下文的关联关系不会太复杂并且语义明确;
2.
大部分新词集中为个性化的名词且数量、成分位置等特征明显易于识别,如“惠民”大药房、“新特”药房;
3.
较少歧义性命名,极少出现类似“武汉市长江大桥”、“马路的一边站着一个警察”歧义句子;
看起来分词的难度没那么大,但实际情况并非如此,我们经常会碰到带有简化分店信息的连锁门店(新街伍拾肆店、同方461店)、带有特殊单位数字番号的医疗机构(某军二O一医院)、以及带有数字化人名的个体诊所的情况(开发区伍万某诊所、高新区陆一某诊所),均属于需要精确识别成分信息,最终利用重要信息进行匹配。
以上为未名企鹅流向终端名称匹配系统的大致介绍,未名企鹅拥有整体解决方案用以致力于集成大数据采集、ETL处理、自然语言处理、机器学习、深度学习等技术。致力于为用户解决信息化过程中遇到的各种问题,提高数据处理效率与准确率,使用户更专注业务能力的提升,为医药企业赢得时间、抢夺商机制高点。
领取专属 10元无门槛券
私享最新 技术干货