说明:apt-get install opencc 安装的,在运行时提示下面的错误,所以不得不apt-get remove opencc 然后从git取源码安装。 运行时错误提示: OpenCC initialization error Configuration error Configuration file parse error 系统说明 本次操作基于tensorflow 官方的 tensorflow/tensorflow:1.3.0-rc2-py3 的docker 安装源已由官方源改为阿里源
这篇文章说一下自动翻译简体中文文档到繁体中文问题的 action,基于 opencc 实现的简繁体转换。
下载地址:https://github.com/BYVoid/OpenCC.git
可以用OpenCC库。OpenCC(Open Chinese Convert)是一个开源的中文简繁转换库,旨在提供高质量的简繁体转换功能。它支持多种编程语言接口,包括C++、Python、Java和JavaScript等,使得不同背景的开发者可以轻松集成到自己的应用中。
谈起简繁转换,许多人以为是小意思,按字转换就行了。事实上,汉语历史悠久,地域复杂,发展至今在字符级别存在“一简对多繁”和“一繁对多简”,在词语级别上存在“简繁分歧词”,在港澳台等地则存在“字词习惯不同”的情况。为此,HanLP新增了“简体”“繁体”“臺灣正體”“香港繁體”间的相互转换功能,力图将简繁转换做到极致。
分享一个java简繁转换的库opencc4j https://github.com/houbb/opencc4j Group ArtifactId Version <dependency> <groupId>com.github.houbb</groupId> <artifactId>opencc4j</artifactId> <version>1.7.2</version> </dependency> 使用起来: 繁简体转换 转为简体 String original = "生命不息
维基百科开源的中文词条内容,收集了99W+词条,当然比百度少了不少。 有效处理该原始语料的方法主要有两个:1、Wikipedia Extractor;2、gensim的wikicorpus库。 两种处理都比较粗糙,导致:
最近在做词向量相关工作,词向量的训练数据采用中文维基百科数据,训练之前,要对维基百科数据进行处理,这篇文章记录了一些处理过程及相关的脚本。
RSS 是一种描述和同步网站内容的格式,是使用最广泛的 XML 应用。RSS 搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。发布一个 RSS 文件后,这个 RSS Feed 中包含的信息就能直接被其他站点调用,而且由于这些数据都是标准的 XML 格式,所以也能在其他的终端和服务中使用,是一种描述和同步网站内容的格式。
训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2vec,所以,今天小编文文带你使用维基百科训练词向量。 4、繁简转换 上一篇中讲到了将文档从xml中抽取出来,下一步是将繁体字转换为简体字,那么我们使用opencc工具进行繁简转换,首先去下载opencc:https://bintray.com/package/files/byvoid/opencc/OpenCC 下载完成之后解压即可,随后使用命令: ope
实验环境:Ubuntu + eclipse + python3.5 首先(1)下载最新中文wiki语料库: wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 (2)由于下载之后,语料库上的编码格式会有不同,因此需要进行处理一下:借鉴了这篇文章。 http://www.crifan.com/summary_python_string_encoding_decoding_difference_
中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/
最新打包的中文文档下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 。
在过年的那些日子,每天中午都会陪着孩子看会《诗词大会》,突然发现这个节目还蛮有意思。一些难以言传的情感或者意境,通过诗词用几个字就能传神的表达出来。
于是我有了三天时间赶我的极客时间「Rust 第一课」专栏的稿子。我想着三天怎么也能交出两篇稿子,结果就周五忙活一天,熬出一篇。
这是一个以SDL2为基础实现的2D游戏框架,同时相当于提供了一个使用该框架制作DOS游戏《金庸群侠传》移植版的范例。Windows下可以使用Visual Studio编译,其他系统下可以在src目录使用CMake生成Makefile,使用GCC或Clang编译,需至少支持C++14。VS工程为x64版本,如需要x86版请自行修改。
首先来一个简单的问题,“乔布斯”和“苹果”这两个词有关联吗?如果有,有多大的相关度? 背景介绍 传统的文档相关度一般是基于特征提取所得的向量相关度,而词语相关度也经常在不少实际应用中涉及到。对于要比较的两个词语,相对于仅仅在“相等”和“不等”这两者间做一个选择,更好的方法应当是对相关度的大小作一个数值性刻画。如果“1”对应完全相关,“0”对应完全不相关(当然也可以将相关度最小值设为-1),那么可以用“0”至“1”之间的一个浮点数来刻画两个词语的相关度。 衡量两个词语的相关度一般通过比较其上下文环境来实现,
在上个文章中,我们已经简单介绍了NLP机器翻译,这次我们将用实战的方式讲解基于RNN的翻译模型。
9012 年了,别的小朋友们服务器上面跑着各式各样的东西:博客、云盘、监控脚本……再看看我们那台闲(bai)置(piao)很久的阿里云 Server,里面的 Git 竟然还是 1.8 的上古版本。?
Rime/小狼毫/鼠须管是强大的开源输入法。但是,如何快速地在Linux、macOS以及Windwos上快速配置它呢?让我们一起来看看。
百度词条解释:低代码开发平台(LCDP)是无需编码(0代码)或通过少量代码就可以快速生成应用程序的开发平台。 个人理解:低代码平台就是非技术人员和技术人员都可以利用“可视化”窗口,通过“拖拽”等操作就能快速开发出适合企业自身实际业务场景的工作流程或应用程序。
源码:https://github.com/ThibaultJanBeyer/DragSelect.git
大部分开发者,可能都使用Linux作为服务器,但是有些情况,也需要Linux桌面环境,方便进行更为仿真的测开、测试等。那么,输入法就是一个问题了。
在上个文章中,我们已经简单介绍了 NLP 机器翻译,这次我们将用实战的方式讲解基于 RNN 的翻译模型。
将mac air刷回出厂版本(Mojave)后, 确实获得了无比给力的运行速度和续航能力, 开腾讯会议风扇也不转了, 又可以一用八小时了, 看起来一起都向着好的方向发展, 除了一件事: Visual Studio Code(VS Code).
SpellGCN:Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check
摘要: 要进行自然语言处理相关工作,文本数据预处理是个必不可少的过程。本文将对文本数据预处理相关的内容进行归纳整理,主要包括以下4个方面内容:
经过了2个多月的改进,终于深蓝词库转换2.0版正式与大家见面了。在1.9版本中增加了对Rime拼音输入法的支持,也得到了网友的反馈,所以在2.0版本中增加了几个新功能:
byvoid 面阿里星计划的面试结果截图泄漏,引起无数IT屌丝的羡慕敬仰。看看这些牛人,NOI金牌,开源社区名人,三年级开始写Basic…在跪拜之余我们不禁要想,和这些牛人比,作为绝大部分技术屌丝的同学们,是否真的与国内IT巨头遥不可及呢? 当你打开这个帖子的时候,我已经默认你是此文的目标读者,也就是想进入国内一流互联网企业的非牛人应届生。 你不需要拿NOI的奖,无需是开源社区名人,也用不着发过牛逼的SCI论文。(没错,笔者就是这样的技术屌丝) 请记住,校园招聘,应聘的绝大部分人都只是才出象牙塔的毛头小子
不久前,byvoid面阿里星计划的面试结果截图泄漏,引起无数IT屌丝的羡慕敬仰。看看这些牛人,NOI金牌,开源社区名人,三年级开始写Basic...在跪拜之余我们不禁要想,和这些牛人比,作为绝大部分技
论文标题:Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese 论文链接:https://arxiv.org/pdf/2110.06696.pdf 论文代码:https://github.com/Langboat/Mengzi 论文作者:{Zhuosheng Zhang etc.}
欢迎大家去 GitHub 的 ruanyf/weekly 提交 issue,进行投稿。
众所周知,中文NLP领域缺乏高质量的中文语料。作者徐亮(实在智能算法专家) 创建了一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料。希望大家一起为该项目贡献语料,感兴趣的同学可以直接关注该项目github地址,和作者直接联系,点击文末"阅读原文"直达github链接,可下载相关语料:
昨天聊到腾讯 AI Lab 的词向量:相似词查询:玩转腾讯 AI Lab 中文词向量 ,今天趁热打铁,推荐Github上的一个中文词向量项目:Chinese-Word-Vectors ,Github地址,可点击文末"阅读原文"查看:
报错信息如下: 装了n遍还是这样 (nemo) fanyi@ubuntu:~$ pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple Writing to /home/fanyi/.config/pip/pip.conf (nemo) fanyi@ubuntu:~$ pip install nemo_toolkit['all'] Looking in indexes: https://pypi.tuna.tsingh
项目地址:https://github.com/brightmart/nlp_chinese_corpus
基于 DFA 算法实现,目前敏感词库内容收录 6W+(源文件 18W+,经过一次删减)。
我们在Linux中使用自带的gcc和g++编译器进行编译的程序是针对X86架构的。而我们开发板大多都是ARM或者其他架构的开发板,我们就需要编译出针对其他架构的程序。
centos系统内核如何升级,有些小伙伴在使用centos系统时可能会遇到网卡不能使用,亮度不能调节,触摸板不能识别,等等问题,这些都是内核版本过低而导致,只需要把内核升级一下就可以, 下面为大家分享一下centos系统内核升级方法。
arm-none-linux-gnueabi-gcc是 Codesourcery 公司(目前已经被Mentor收购)基于GCC推出的的ARM交叉编译工具。可用于交叉编译ARM系统中所有环节的代码,包括裸机程序、u-boot、Linux kernel、filesystem和App应用程序。使用时,按照主机平台,可以下载以下任一版本中的一个,结果是一样的:
本文是为那些没有接触过Linux系统的人写的。了解Linux系统对于一个技术来人员可谓是必须的(即便不是和计算机直接相关的),而对于广大普通用户而言,只了解Windows虽然已经足够,不过来了解一下Linux这个系统我想还是有益处的(虽然很难立马显现)。 下面我就用一问一答的简单形式带大家初步了解Linux是什么: Q:用一句话概括Linux? A : linux是一个操作系统,就和windows一样。 要了解linux,请先了解开放源代码运动。这是由理查德·斯托曼先生在上世纪80年代发起的一项运动。其主要
本文是为那些没有接触过Linux系统的人写的。了解Linux系统对于一个技术来人员可谓是必须的(即便不是和计算机直接相关的),而对于广大普通用户而言,只了解Windows虽然已经足够,不过来了解一下Linux这个系统我想还是有益处的(虽然很难立马显现)。
状态为 deinstall 即已经卸载,如果觉得看着不舒服的话可以使用 purge 连配置文件里一起彻底删除,清理内核列表
当Linux在1991年8月25日诞生时,它不过是当时21岁的Linus Torvalds的一个爱好。今天,Linux社区估计有超过8600万的强大用户。
Linux服务(Linux services)对于每个应用Linux的用户来说都很重要。关闭不需要的服务,可以让Linux运行的更高效,但并不是所有的Linux服务都可以关闭。今天安装了一次CentOs Linux,发现Linux启动的时候启动了好多服务,大部分都不知道是干什么的。因此着重了解了一下那些Linux服务(Linux services)可以关闭,那些Linux服务(Linux services)不能随意关闭。 在关闭Linux服务之前,需要了解一些概念: 什么是Linux服务/后台进程(Linu
需要分别清楚header和image,可以直接用apt-get remove来清除。
领取专属 10元无门槛券
手把手带您无忧上云