嗨,伙计们,我正在处理一个巨大的gz压缩fasta文件,我有一个很好的fasta解析器,但是我想让它变得更一般,在我可以检查压缩的方式,解析一个gz或一个非压缩的文件。filename.endswith('.gz'): fasta_iter = (it[1] for it in itertools.groupbyis_header)) with open
我正试图用StanfordNLP解析书长的文本块。http请求工作得很好,但是文本长度有一个不可配置的100 in限制,即MAX_CHAR_LENGTH in StanfordCoreNLPServer.java。现在,在将文本发送到服务器之前,我正在对其进行切分,但是即使我尝试在句子和段落之间进行分割,也会在这些块之间丢失一些有用的共同引用信息。想必,我可以解析具有较大重叠的块,并将它们链接到一起,但这似乎(1)不雅,(2)类似于相当多的维护。
是否