首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

关于维基百科你不知道的十件事:

我们最好的文章会被颁发「特色条目」的头衔,有问题的页面则会被提名删除。「维基专题」的目标是提升某个特定领域议题的文章质量。...非常杰出的文章有可能会流通于其他媒体,或者透过Wikipedia 1.0计划向学校散布(中文维基目前尚没有Wikipedia 1.0计划的筹划)。...除了维基百科之外,维基媒体基金会还经营有其他八个姊妹计划:维基词典(多语言的字典和词典)、维基文库(文献纪录的图书馆)、维基共享资源(一个储存有超过一百万笔图片、影片和声音档案的媒体数据库)、维基教科书...(教科书和手册数据库)、维基大学(交互式学习资源)、维基新闻(全民可参与的新闻网站)、维基语录(名人名言的集锦)以及维基物种(所有生物的物种数据库)。...维基媒体基金会的控制者为理事会,根据规定其成员大部分必须由维基媒体社群中选出。理事会和维基媒体基金会的工作人员不会干涉编辑事务,每项维基媒体计划也都各自独立管理并以舆论为导向。

1.4K40

不再需要词典了,现在,AI通过无监督学习学会了双语翻译

维金 编译 Science 量子位 出品 | 公众号 QbitAI 由于神经网络技术的发展,翻译自动化已经取得了长足的进步。...首先,计算机在没有人工帮助的情况下创建双语词典。这是有可能的,因为语言的单词集群方式有很强的相似性。例如,“桌子”和“椅子”这样的单词在所有语言中都会经常同时出现。...这样,你就有了一本双语词典。 新论文提出的方法类似,但可以在句子层面进行翻译。 论文中使用了两种训练策略,分别为反向翻译和去噪声。...他表示:“计算机可以在没有人工监督的情况下学会翻译,这令人震惊。”Artetxe表示,他提出的方法与Lample的方法非常类似,这令人惊讶。“但与此同时,这也是件好事。

74130
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    哥伦比亚大学数据科学课程笔记

    Discroll也参考了Drew Conway2010年的数据科学的维恩图解VennDiagram 让我们也来看下2009年Nathan Yau在《崛起的数据科学家》(Rise of theData Scientist..., 2009)中提到的 “数据极客的性感技巧”: 1、统计学 – 你习惯性想到的传统分析 2、对数据进行不必要的改动- 解析,抹去和格式化数据 3、视觉化 - 图表,工具等 别急,数据科学是一口袋骗局吗...可以肯定的是,在数据科学领域,没有人能提供给你一份干净的数据库,也没有人告诉你用什么数据处理方法。此外,数据科学的发展领域是在工业界,而非学术领域。...没有人是全能专家,这正是组建一支由不同背景和各个领域专业人才的团队的重要性。作为一支团队,就可以精通任何领域了。...比如牛津英语词典。 l 事实上牛津英语词典或许目前根本还没有相关条目,然后我们也没有时间去等待它收录此条目。我们不妨接受这样一种现象,有一种既不被权威参考所认同也不被“大众”所接受的范围。

    79070

    干货 | CVPR Spotlight论文:当零示例学习遇上网络数据

    首先,一个大类下面往往有大量子类。据统计,世界上有 14000 种鸟,很难为每一种鸟都收集足够的训练数据。其次,为子类标注需要专业的知识。...类别的语义信息有很多种,包括特征 (attribute) 和词向量 (word vector) 等等。因为特征需要专家进行标注,比较难获取,所以我们使用从免费的维基文本中学到的词向量。...第一步:学习基于标注子类的词典 (dictionary) ? 我们用标准的词典学习得到基于标注子类的词典。 第二步:从标注子类转移知识到网络子类用来解决网络子类存在的问题 ?...在上面的表达式中,第一项是标准的词典学习,第二项让基于标注子类的词典和基于网络子类的词典接近,也就是把标注子类的知识转移到网络子类,第三项期望测试集上的词向量矩阵是低秩的,因为相同子类测试图片的词向量应该彼此相似...所以我们的学习范式可以看成弱监督的零示例学习,或者有额外子类的弱监督学习。以下是我们的实验设定和实验结果。

    38730

    CVPR Spotlight 论文:当零示例学习遇上网络数据

    首先,一个大类下面往往有大量子类。据统计,世界上有 14000 种鸟,很难为每一种鸟都收集足够的训练数据。其次,为子类标注需要专业的知识。...类别的语义信息有很多种,包括特征 (attribute) 和词向量 (word vector) 等等。因为特征需要专家进行标注,比较难获取,所以我们使用从免费的维基文本中学到的词向量。...第一步:学习基于标注子类的词典 (dictionary) ? 我们用标准的词典学习得到基于标注子类的词典。 第二步:从标注子类转移知识到网络子类用来解决网络子类存在的问题 ?...在上面的表达式中,第一项是标准的词典学习,第二项让基于标注子类的词典和基于网络子类的词典接近,也就是把标注子类的知识转移到网络子类,第三项期望测试集上的词向量矩阵是低秩的,因为相同子类测试图片的词向量应该彼此相似...所以我们的学习范式可以看成弱监督的零示例学习,或者有额外子类的弱监督学习。以下是我们的实验设定和实验结果。

    29910

    早期,SEO人员解读:百度分词算法分析

    那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:三个子字符串;这个道理简单,我们接着往下看。...,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,...说明百度的同音词典是自动生成的,而且没有人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个词典的词条来标注音节的, 所以对于多音字造成的错误无法识别出来...百度提示的是:吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典呢,让我们来实验一下,搜索"rongji", 百度提示"榕基溶剂容积",OK,换个中文查询..."容机", 百度提示"榕基溶剂容积",看来使用的是同一套同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度的"事实上是一个无比强大的拼音输入法

    58820

    【智能】自然语言处理概述

    细节化:文本分块由除以单词句法相关部分,如名词基,动词基的文字,但没有指定其内部结构,也没有其在主句作用。 分析器:尝试解析器最简单的方法是在命令行工具。该工具仅用于演示和测试。...对训练数据集的每篇文章,我们进行词语的统计,以形成一个词典向量。词典向量里包含了训练数据里的所有词语(假设停用词已去除),且每个词语代表词典向量中的一个元素。...基于惩罚项的特征选择法:使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型。...常见的降维方法:L1惩罚项的模型、主成分分析法(PCA)、线性判别分析(LDA)。PCA和LDA有很多的相似点,其本质是要将原始的样本映射到维度更低的样本空间中。...所以说PCA是一种无监督的降维方法,而LDA是一种有监督的降维方法。 1)主成分分析法(PCA):使用decomposition库的PCA类选择特征。

    1.6K50

    关于8月31日维基解密被攻击的观察与分析

    十几天前,维基解密遭受了一次攻击,导致很多访问者看到了“OurMine”的声明,他们声称已经获取了维基解密服务器的控制权。...第二:对于维基解密,另一种猜测是服务器并没有被入侵,但是域名wikileaks.org被黑客当成目标且成功接管,观察发现域名wikileaks.org并没有被解析成以往的IP地址,而是被解析到了另一个主机...那么维基解密发生了什么呢?我们使用了基于被动DNS的DNSDB,它可以观察到DNS流量,并允许用户查询改变之前的情况。说了这么多,NDSDB里到底有什么? ?...有趣的是,有许多人把这种攻击称之为“DNS毒化”,针对这种特定攻击的最佳防护DNSSEC并未被维基解密激活(在wikileaks.org域名中有一个DNSSEC密钥,但在父级没有签名和DS记录 )。...如果wikileaks.org域名被签名,并且如果使用了验证的DNS解析器,那么维基解密就不会被“DNS毒化”。

    1.1K50

    语言学家应该很容易理解自注意力机制

    可惜,初读论文「Attention is all you need」 ,被 QKV弄得晕头转向的时候,没有人指点迷津。...但当年理解注意力机制的时候,还是遭遇很大的困惑,想不明白 语言解析与数据库啥关系。当时觉得扯上数据库,最多就是查词典相关,而查词典早就在词嵌入(embedding)编码阶段就完成了。...自注意力的核心不是静态的查词典,而是动态的上下文理解。 当年因为想不明白为什么要套用数据库的信息查询和匹配的说法,只能把注意力机制泛泛理解为关注上下文。...一个是颗粒度没法比,人家的家底是几百上千维度的实数向量,加上各种投射以及非线性转换,我们才有最多几千个强行结构化的符号特征(one hot features)。...不知道经过多少次嘀咕、查阅,才慢慢明白:天下大势,冥冥之中,有万变不离其宗。

    18110

    做项目一定用得到的NLP资源【分类版】

    基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘 github 维基大规模平行文本语料 85种语言、1620种语言对、135M对照句 github 古诗词库 github repo 更全的古诗词库...低内存加载维基百科数据 用新版nlp库加载17GB+英文维基语料只占用9MB内存遍历速度2-3 Gbit/s github 对联数据 700,000 couplets, 超过70万对对联 github...BERT-NER-Pytorch三种不同模式的BERT中文NER实验 github 知识图谱 资源名(Name) 描述(Description) 链接 清华大学XLORE中英文跨语言百科知识图谱 百度、中文维基...、英文维基 link 文档图谱自动生成 github 基于医疗领域知识图谱的问答系统 github 该repo参考了github 中文人物关系知识图谱项目 github AmpliGraph 知识图谱表示学习...,很强大 link tabula-py 直接将pdf中的表格信息转换为pandas的dataframe,有java和python两种版本代码 camelot pdf表格解析 link pdfplumber

    2.2K40

    详解循环神经网络(Recurrent Neural Network)

    BP 算法的详细推导可以看这篇: 手写,纯享版反向传播算法公式推导 http://www.jianshu.com/p/9e217cfd8a49 下面详细解析各步骤: 1....首先,要把词表达为向量的形式: 建立一个包含所有词的词典,每个词在词典里面有一个唯一的编号。 任意一个词都可以用一个N维的one-hot向量来表示。 ?...这种向量化方法,我们就得到了一个高维、稀疏的向量,这之后需要使用一些降维方法,将高维的稀疏向量转变为低维的稠密向量。...因此,神经网络的输出向量也是一个 N 维向量,向量中的每个元素对应着词典中相应的词是下一个词的概率: ? 为了让神经网络输出概率,就要用到 softmax 层作为输出层。...有了模型,优化目标,梯度表达式,就可以用梯度下降算法进行训练了。 ---- 4. 代码实现 RNN 的 Python 实现代码可以在学习资料中找到。

    1.8K60

    【Scikit-Learn 中文文档】分解成分中的信号(矩阵分解问题) - 无监督学习 - 用户指南 | ApacheCN

    以下是iris数据集的一个示例,该数据集包含4个特征, 通过PCA降维后投影到方差最大的二维空间上: PCA 对象还提供了 PCA 的概率解释, 其可以基于其解释的方差量给出数据的可能性。...增量PCA (Incremental PCA) PCA 对象非常有用, 但对大型数据集有一定的限制。 最大的限制是 PCA 仅支持批处理,这意味着所有要处理的数据必须适合主内存。 ...样本位于许多的很低维度(例如约200维)。PCA算法可以用于线性变换数据,同时降低维数并同时保留大部分方差。...combination),如离散小波基( discrete wavelet basis ) 。...将数据表示为来自过完备词典的原子的稀疏组合被认为是哺乳动物初级视觉皮层的工作方式。 因此,应用于图像补丁的词典学习已被证明在诸如图像完成、修复和去噪,以及有监督的识别图像处理任务中表现良好的结果。

    1.3K70

    机器学习第1天:数据预处理

    -----代码传送门 ----- -----数据传送门----- 一、预备知识 pandas、numpy基本用法有所了解 对什么是机器学习有简单的了解 二、具体实现步骤 第1步:导入库 import...mean", axis = 0) imputer = imputer.fit(X[ : , 1:3]) X[ : , 1:3] = imputer.transform(X[ : , 1:3]) 第4步:解析分类数据...例如:有数据A、B、C,利用fit建立一个“词典”,在“词典”中A代表1、B代表2、C代表3,而后transform()通过“词典”将A转化为1、B转化为2、C转化为3。...StandardScaler标准化 StandardScaler标准化:将特征数据的分布调整成标准正太分布,也叫高斯分布,也就是使得数据的均值维0,方差为1。...LabelEncoder处理的原因 将数据标签化,利于模型的建立 有不足或者不对的地方欢迎留言指正!!!

    90010

    【NLP】十分钟快览自然语言处理学习总结

    细节化:文本分块由除以单词句法相关部分,如名词基,动词基的文字,但没有指定其内部结构,也没有其在主句作用。 分析器:尝试解析器最简单的方法是在命令行工具。该工具仅用于演示和测试。...对训练数据集的每篇文章,我们进行词语的统计,以形成一个词典向量。词典向量里包含了训练数据里的所有词语(假设停用词已去除),且每个词语代表词典向量中的一个元素。...基于惩罚项的特征选择法:使用带惩罚项的基模型,除了筛选出特征外,同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型。...常见的降维方法:L1惩罚项的模型、主成分分析法(PCA)、线性判别分析(LDA)。PCA和LDA有很多的相似点,其本质是要将原始的样本映射到维度更低的样本空间中。...所以说PCA是一种无监督的降维方法,而LDA是一种有监督的降维方法。 1)主成分分析法(PCA):使用decomposition库的PCA类选择特征。

    1.6K71

    积极尝试区块链治理方案报告

    在区块链治理方面,维基链目前没有更好的解决方案,但已经有了改进的方向。...编辑部:在区块链竞猜游戏领域,维基链相比同行有哪些优势,有哪些技术创新? 陈晓东:目前,区块链已经发展到3.0阶段,有以DpoS为代表的共识机制,可以保证更高的性能和更低的能耗。...在竞猜游戏领域,维基链有以下优势: 第一, 具有先入优势,在区块链行业中我们是最先关注竞猜这个领域的,并且落地了区块链竞猜领域第一个DApp。 第二, 维基链团队有体育竞猜的基因。...维基链现任CPO张曦等有多年体育竞猜产品经验,维基链在世界杯期间也已经尝试过体育竞猜。 第三, 现在很多DApp的应用都是需要采用混合架构的,不比中心化应用的体验差,又能避免中心化,具有区块链的优势。...有一定的灵活性。 维基链未来将会提升公链的性能,安全性、稳妥性,包括自治的能力。我们希望能在这方面做得很好。

    77562

    算法入门(二) -- 线性代数回顾

    本来从这周就应该上手经典算法的,但是我大概翻了一下博客,没有人系统的串讲一下算法中用到的高数知识,都是在算法中掺杂的,想了一下还是准备花几周时间专门整理一下基础理论知识,今天我们就开始线性代数的复习吧。...矩阵在机器学习中用于表示数据集合,例如,一个包含 个样本,每个样本有 个特征的数据矩阵,其中每一行代表一个样本,每一列代表一个特征。...矩阵求逆在一些机器学习算法的推导和求解过程中会用到,如在线性回归的正规方程求解中,模型参数 ,这里就需要计算矩阵 的逆(假设其可逆),通过求逆得到模型参数的解析解,从而确定线性回归模型的系数。...从向量空间的角度看,PCA 的原理是在原始数据所在的 维向量空间中,找到一组新的正交基(即特征向量),使得数据在这些基向量上的投影能够最大程度地反映数据的方差。...好了到了这里你就开启了算法修仙的筑基之路,希望各位道友修行路上一切顺利。

    18510

    TensorFlow2.X学习笔记(6)--TensorFlow中阶API之特征列、激活函数、模型层

    categorical_column_with_vocabulary_list 分类词汇列,one-hot编码,由list指定词典。...categorical_column_with_vocabulary_file 分类词汇列,由文件file指定词典。...categorical_column_with_hash_bucket 哈希列,整数或词典较大时采用。...可以增强模型对输入不同分布的适应性,加快模型训练速度,有轻微正则化效果。一般在激活函数之前使用。 SpatialDropout2D:空间随机置零层。...如果自定义模型层有需要被训练的参数,则可以通过对Layer基类子类化实现。 Lamda层 Lamda层由于没有需要被训练的参数,只需要定义正向传播逻辑即可,使用比Layer基类子类化更加简单。

    2.3K21
    领券