BIP39[1]定义了一种将计算机产生的随机数翻译成人类可读的方式,初衷很简单:结合BIP32[2],辅助人类记忆产生主密钥的种子。
这三者的长度关系如下:
CS = ENT/32
MS = (ENT + CS)/11 化简成 MS = 3 * CS
举个例子,如果初始熵长度为 128,ENT/CS/MS组成的关系表格填充如下:
ENT | CS | MS |
---|---|---|
128 | 4 | 12 |
初始熵可以通过随机数生成器生成,允许的大小在 128-256 bits 范围之内。
校验码利用初始熵经过哈希得出,而且长度必须是
。
助记词需要将初始熵和校验码拼接,然后切分成每11位为一组,每一组二进制数转换成十进制数作为索引wordlists的下标,以便提取对应的词汇。以128位的ENT为例,它最终会产生12个词汇。
词汇表的构成是有原则可遵守的,其一,词汇之间可辨识性强,英文的词汇在前4个词汇就能有很快速的区分;其二,避免相似的词语,人毕竟是健忘的;其三,词汇应该排过序,便于二分查找。
下面利用Nodejs版本的BIP39[3]解释
function generateMnemonic (strength, rng, wordlist) {
strength = strength || 128
if (strength % 32 !== 0) throw new TypeError(INVALID_ENTROPY)
rng = rng || randomBytes
return entropyToMnemonic(rng(strength / 8), wordlist)
}
generateMnemonic(...)
函数的参数rng全称是random number generator,即随机数发生器,默认是randomBytes。此处,ENT的默认长度是128位,运行randomBytes(128/8)
将产生了16字节的随机数。然后调用entropyToMnemonic(...)
函数生成助记词。
function entropyToMnemonic (entropy, wordlist) {
if (!Buffer.isBuffer(entropy)) entropy = Buffer.from(entropy, 'hex')
wordlist = wordlist || DEFAULT_WORDLIST
// 128 <= ENT <= 256
if (entropy.length < 16) throw new TypeError(INVALID_ENTROPY)
if (entropy.length > 32) throw new TypeError(INVALID_ENTROPY)
if (entropy.length % 4 !== 0) throw new TypeError(INVALID_ENTROPY)
var entropyBits = bytesToBinary([].slice.call(entropy))
var checksumBits = deriveChecksumBits(entropy)
var bits = entropyBits + checksumBits
var chunks = bits.match(/(.{1,11})/g)
var words = chunks.map(function (binary) {
var index = binaryToByte(binary)
return wordlist[index]
})
return wordlist === JAPANESE_WORDLIST ? words.join('\u3000') : words.join(' ')
}
entropyBits是entropy的二进制表示;checksumBits是entropy经由SHA256计算得到的哈希值再截断到CS的长度得来的,调用deriveChecksumBits(...)
函数产生checksumBits的逻辑如下:
function deriveChecksumBits (entropyBuffer) {
var ENT = entropyBuffer.length * 8
var CS = ENT / 32
var hash = createHash('sha256').update(entropyBuffer).digest()
return bytesToBinary([].slice.call(hash)).slice(0, CS)
}
这里的计算和前面长度关系规则完全吻合,checksumBits通过slice(0, CS)
截断得到4位的二进制数。
计算得到entropyBits和checksumBits之后,把它们拼接到一起,得到一组bits,然后按每组11bits分隔,这里使用了正则表达式 bits.match(/(.{1,11})/g)
,正则表达式(.{1,11})
表示对任意1-11个bit进行分组,由于正则默认是最长匹配,所以每11位就被分成了一组。最终,每组二进制数都会被转成十进制数,进而作为词汇表的下标索引对应的词汇,详细见上文的chunks.map(function (binary) ...
过程。
BIP39其实并没有定义词汇表,所以不同的自然语言都可以自行实现自己的词汇表。NodeJS版本的BIP39[3]就支持中文的词汇表。
var mnemonic = bip39.generateMnemonic(160, null, bip39.wordlists.chinese_simplified)
->
'定 过 丘 搭 斥 紫 遍 官 寿 穿 贯 别 讯 卵 符'
除了中文的词汇表,它还支持下列词汇,如:繁体中文等。
export const wordlists: {
EN: string[];
JA: string[];
chinese_simplified: string[];
chinese_traditional: string[];
english: string[];
french: string[];
italian: string[];
japanese: string[];
spanish: string[];
};
拿到助记词之后,就可以从助记词生成种子。这里其实使用了pbkdf2算法,不过有趣的是,参数mnemonic反而是pdkdf2算法中的password参数:
function mnemonicToSeed (mnemonic, password) {
var mnemonicBuffer = Buffer.from(unorm.nfkd(mnemonic), 'utf8')
var saltBuffer = Buffer.from(salt(unorm.nfkd(password)), 'utf8')
return pbkdf2(mnemonicBuffer, saltBuffer, 2048, 64, 'sha512')
}