我们正在使用Stanford来训练我们自己的法语报纸文本分类器。我们在标点符号方面有问题,特别是斯坦福大学似乎用其他标点符号代替了一些标点符号。下面是一个示例,在“'”中,`代替了Ave-Maria,而包含Ave-Maria的«和»被``和"所取代。输入原始文本:
" Aujourd'hui ... « Ave Maria » et ..."我很感谢你的帮助。
我正在开发一个基于LSTM的编码器-解码器拼写纠正模型,该模型提供了4600000行的训练数据。训练文件由两列组成-正确和错误的句子。当数据小到200000时,该模型工作得很好。但是当我增加它的时候,训练不会超过2个时期。它有时会给出terminate called after throwing an instance of std::bad_alloc错误,有时训练会在没有任何错误或警告的情况下停止。keras.clear_session()
我也尝试过将latent_dim和batch_size<e