暂无搜索历史
深度学习是深度神经网络的简称。简单来说,神经网络是由很多个下面的公式组成,而深度神经网络是由很多个神经网络层堆叠而成的。
超参数指的是模型参数(权重)之外的一些参数,比如深度学习模型训练时控制梯度下降速度的学习率,又比如决策树中分支的数量。超参数通常有两类:
Python pandas、NumPy、scikit-learn 只能在单机运行,如果你还还在困扰如何将这些任务横向扩展,这本书正适合你!
作为技术出身的我,不太会写软文广告,今天就直接来个硬广。之前与人民邮电出版社合作的《Flink原理与实践》经过一年多时间的打磨和润色,这两天终于与大家见面了,恳...
神经机器翻译(Neural Machine Translation,NMT)借助深度神经网络对不同语言的文本进行翻译,本文主要介绍机器翻译数据集WMT16 en...
本文同时发布在我的个人网站:https://lulaoshi.info/blog/learning-rate-schedule.html
Transformer[^1]论文中使用了注意力Attention机制,注意力Attention机制的最核心的公式为:
自BERT(Bidirectional Encoder Representations from Transformer)[1]出现后,NLP界开启了一个全新的...
这周,IT圈一个有意思的事情是:faker.js的开源软件库作者故意加入了恶意代码,并一气之下将代码仓库删了。这个事件一度导致所有依赖faker.js的软件出现...
这两天科技媒体沸腾了!DeepMind继AlphaGo、AlphaFold之后,推出了Alpha系列又一神器:AlphaCode。据说这是一个可以自己写代码的A...
我第一次接触 Embedding 是在 Word2Vec 时期,那时候还没有 Transformer 和 BERT 。Embedding 给我的印象是,可以将词...
一个 Python 软件包中的 setup.py 文件包含这个 Python 包如何打包发布等重要信息。本文主要对这篇博客(https://amir.rachu...
这几天各大科技媒体都在唱衰TensorFlow,鼓吹JAX。恰好前两个月我都在用JAX,算是从JAX新人进阶为小白,过来吹吹牛。
上一篇我们分析了Hello World是如何编译的,即使一个非常简单的程序,也需要依赖C标准库和系统库,链接其实就是把其他第三方库和自己源代码生成的二进制目标文...
C语言的经典程序“Hello World”并不难写,很多朋友都可以闭着眼将它写出来。那么编译一个“Hello World”到底经历了怎样的过程呢?
比如,在互联网广告和推荐系统中,曾广泛使用Sigmod函数来预测某项内容是否有可能被点击。Sigmoid函数输出值越大,说明这项内容被用户点击的可能性越大,越应...
我在自己的网站中专门介绍过GPU的一些硬件基础知识:https://lulaoshi.info/gpu/gpu-basic/gpu.html。英伟达为优化深度学...
在生物神经网络中,一个神经元(Neuron,又被称为Unit)会和多个神经元相连,当神经元兴奋时,它会向相连的神经元发送化学物质,进而改变相连神经元的电位;如果...
为了避免过拟合,一种手段是使用正则化(Regularizaiton)来限制模型的复杂程度。Regularization从英文直译过来是“规则化”,就是说,在原来...
我的网站公示显示效果更好,欢迎访问:https://lulaoshi.info/machine-learning/linear-model/logistic-r...