首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

赶紧来尝鲜科研大数据“小网红”的“大甜头”

欢迎关注数据超市微信公众号

数据超市是一款基于云平台的大数据计算、分析系统,拥有丰富高质量的数据资源,并封装了数十种算法组件,在浏览器上就可以直接拖拽进行计算,导出结果就可直接用于科研论文。

大数据作为时下十分火爆的“网红”产业,正在为越来越多的人所熟悉。数据超市开发出了使科研人员更好的提高科研效率,降低成本,缩短时间,是数据密集型科研的利器。

数据超市升级后的主要功能特性:

1、对部分文本组件进行了功能逻辑和处理性能的优化,大幅提升了组件的可用性以及稳定性。其中组件包括:LDA主题模型、中文分词、关键词提取、词语过滤、词性过滤、词云、拼音标注、繁简体互转、Hashing-TF、TF词频统计、TF-IDF、Word2Vec。

LDA主题模型是基于算法的封装、工程化调优;模型训练中新增寻求最优参数模式;已经完成了基于LDA算法的文本分类模型的训练和调优。

中文分词是结合jieba分词组件,进行原有splitword组件的升级,支持对中文文本进行分词处理。

关键词提取是基于TextRank图排序算法,对原有的【关键词提取组件】进行优化,同时需要将原有的【文本摘要】组件功能进行合并。

词语过滤是基于结合原有的停用词过滤组件,并在此基础上做了功能升级和空值报错的异常处理机制。

词云是基于原有的【词频统计】组件进行处理逻辑和性能的优化,并改名为词云。

拼音标注是基于原有的组件进行了功能逻辑的优化,支持更多的拼音风格类型的处理。

繁体字转换是基于原有的【繁体字转换】组件进行升级,支持繁体字、简体字的互相转化功能,生成新的【繁简体互转】组件。

HashingTF是基于原有的【HashingTF】组件进行升级,支持对文本数据通过hash算法映射的方式进行降维处理,并以固定长度向量的形式输出结果。

TF词频统计是基于原有的【TF词频统计】组件进行升级,支持对文本数据通过词频统计的方式进行降维处理,并以词频向量的形式输出结果。

新增【Word2Vec】的封装和工程化调优。

其他文本组件的功能优化和升级。

2、对拖拽组件进行升级,通过封装新的组件对拖拽交互的稳定性和易用性进行了优化。

3、其他页面样式的优化,包括项目列表样式优化、新增组件图标、节点说明等。

4、新增项目详情、画布回到中心点、网格显示等辅助功能,提升产品易用性。

5、异常问题的修复

修复了项目状态、节点状态显示错误的问题。

修复了项目无法正常删除的问题。

修复了模型训练完成后,偶尔出现无法正常生成报告(查看报告时显示“找不到页面“或者“尚不支持“的错误)。

修复了utf编码问题导致计算流程运行时报错。

修复了字段列太多导致的计算流程运行失败的问题。

修复了示例项目无法正常运行的问题。

修复了组件配置中变量没有同步删除,导致计算流程运行失败的问题。

其他影响产品正常使用的问题修复。

查看数据视图报告时命名不一致的问题修复。

总之,数据超市平台可以更好的发挥大体量数据的优势,不仅可以实时且快捷地拿到自己有用的、关心的各类数据,也能为各个业务部门和实施部门“量身定做”决策支持功能,这样一来,所有人都能借助平台的力量,尝到科研大数据的“大甜头”。

以上这些介绍

有没有把这个产品说清楚呢?

周到、全方位的设计

只为成为科研工作者路上的小帮手

在使用的过程中遇到的任何问题

都可以在下方的“写留言”与我们互动

今日互动

对于数据超市还有什么疑问,都可以在写留言告诉我哦~

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180905A1EG4000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券