腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2240)
视频
沙龙
1
回答
如何
让
字节
级
标记
器
不
拆分
<
adjective
>
令牌
?
、
我有带有自定义
标记
的文本,比如:<
adjective
>,我正在尝试准备一个不会
拆分
它们的
字节
级
标记
赋予
器
: tokenizer.pre_tokenizer = ByteLevel() [('Ġ<', (0, 2)), ('
adjective
'
浏览 17
提问于2020-09-16
得票数 0
2
回答
如何
标记
Perl源代码?
、
我有一些合理的(不是混淆的) Perl源文件,我需要一个
标记
器
,它会将它
拆分
成
令牌
,并返回每个
标记
的
令牌
类型,例如对于脚本。它会返回这样的东西: 哪个库是最好的库(最好用Perl编写)?它必须是合理正确的,即它应该能够解析像qq
浏览 0
提问于2010-08-19
得票数 8
回答已采纳
2
回答
将字符串
拆分
为不同字符类型的子字符串列表
、
、
我正在编写一个拼写检查
器
,它以文本文件作为输入,输出拼写更正后的文件。 像won't
浏览 2
提问于2015-11-02
得票数 0
回答已采纳
2
回答
为什么bufio.Scanner不提供HasNext()功能?
为什么不提供HasNext()功能?
浏览 0
提问于2021-11-18
得票数 0
回答已采纳
1
回答
转换
器
/伯特
令牌
预测词汇表(从一组可能的
令牌
中筛选出特殊
令牌
)
、
对于转换
器
模型,特别是对于BERT,以编程方式禁止以特殊
令牌
作为预测结果的模型是否有意义(并且在统计上是正确的)?这在最初的实现中是怎样的呢?我主要考虑的是掩码CLS
令牌
PAD
令牌
也可能有一些意义(但并不是在所有情况下)。
浏览 6
提问于2021-02-13
得票数 3
3
回答
弹性搜索给出奇怪的结果
我遵循关于弹性搜索的教程。“关于”:“我喜欢攀岩”我运行以下查询:
浏览 1
提问于2018-05-12
得票数 1
回答已采纳
1
回答
扫描
器
提前结束
我正在尝试在Go中编写一个扫描
器
,它扫描连续行,并在返回之前清理行,这样您就可以返回逻辑行。有人有什么想法吗,还是它是个窃听
器
?
浏览 3
提问于2013-11-12
得票数 5
回答已采纳
3
回答
Haskell Parsec跳过所有未预先定义的单词
、
我无法理解的是,
如何
忽略(吃)任何输入,而不是指南针的方向。我在寻找一些类似的东西但是g(H)乌龟帮不了我。
浏览 2
提问于2012-10-26
得票数 5
回答已采纳
1
回答
yacc中的关联和优先
级
声明是否解决了语法不明确的问题?
、
它们是否可以帮助解析
器
解决歧义问题而不必更改语法?
浏览 1
提问于2021-04-26
得票数 0
回答已采纳
1
回答
在Solr中合并多个
令牌
、
我正在尝试将LetterTokenizerFactory与WhitespaceTokenizerFactory结合起来,并且无法在不使用copyField复制内容的情况下找到
如何
做到这一点。
让
我描述一下我的想法: 我有两个文本条目,例如H&M和Hewlett-Packard。用户应该能够找到进入h&m的H&M -我为此目的使用WhitespaceTokenizerFactory,不需要
拆分
特殊字符上的
令牌
。用户应该能够找到进入'packard‘- LetterTokenizerFact
浏览 3
提问于2017-07-27
得票数 0
回答已采纳
2
回答
在LALR解析
器
中,
如何
从语法生成中提取操作符以解决冲突?
、
在LALR解析
器
中,是否有一些标准的或被广泛接受的在移位/减少冲突中拾取操作符的算法?问题是幼稚的,我的问题不是执行我的解决方案,而是实施解决方案已经被广泛使用。对于shift,操作符是下一个输入
令牌
,为了减少,它取决于--我认为所有已经读取的符号(对于给定的生产)都声明为操作符:如果有不止一个--我报告语法错误但是,我的算法正确吗(即与LALR解析
器
通常使用的相同)?我特别担心在读<e
浏览 0
提问于2012-12-31
得票数 0
回答已采纳
3
回答
“tag”可以充当HTML锚
标记
吗?
、
、
、
我想要一种
让
块
级
的HTML
标记
像<a>
标记
一样的方式。我的一个想法是把我所有的组件都写成<span>。遗憾的是,这不是我想要的解决方案,因为我也
不
控制HTML第三方组件。
浏览 0
提问于2018-09-21
得票数 0
回答已采纳
4
回答
查询lucene索引的电子邮件地址
、
、
、
我
如何
修复这个问题,
让
"dave@gmail“返回"dave@gmail.com"?电子邮件地址也可能包含其他域(如.co.uk) 谢谢
浏览 0
提问于2010-11-18
得票数 1
1
回答
如何
知道HuggingFace的管道文本输入是否超过512个
令牌
、
、
aggregation_strategy='simple') 我希望在非常长的文本上获得结果,而且由于我知道用于训练和推理的最大容量为512,所以在将它们传递给ner_pipeline之前,我将ner_pipeline
拆分
成较小的块但是,为了检查每个块的长度,我
如何
分割文本而
不
亲自
标记
文本呢?我想
让
它们尽可能长,但同时我不想超过最大的512
标记
,这样就有可能无法计算出句子的剩余部分。有没有办法知道我提供的短信是否超过了512个最大
令牌
?
浏览 18
提问于2022-10-10
得票数 1
回答已采纳
2
回答
“二
级
正则表达式”是什么意思?
我理解基本的正则表达式,但不知道下面的引号是什么意思(关于
如何
实现wiki解析
器
),有人能提供一些伪代码来启发我吗?这是一种非常流行的方法。它非常快,因为它扫描原始文本整整两次。然后用不同的字符
级
正则表达式对它们进行处理。 引用来源:
浏览 4
提问于2012-01-17
得票数 4
回答已采纳
1
回答
Pytorch:
如何
实现嵌套的变压
器
:字符
级
的文字转换
器
和句子的字
级
转换
器
?
、
我想到了一个模型,但我很难弄清楚
如何
在Pytorch中实际实现它,特别是在培训模型时(例如,
如何
定义小批,等等)。首先,
让
我简要介绍一下背景: 所以,抛开许多细节,我只想在这里集中讨论模型的NLP方面/分支。我想使用两个变压
器
:第一个将处理每个字字符的隔离(字符级别的变压
器
),以产生一个初始的字
级
嵌入每个字在问题中。一旦我们有了所有这些初始的字
级
嵌入,第二个字
级
浏览 2
提问于2019-06-14
得票数 5
1
回答
使用elasticsearch对整个单词进行部分匹配--匹配结尾或中间部分
、
我已经阅读了这么多文档,但现在对
如何
匹配搜索中的部分单词感到有点困惑。我知道有很多技巧,但大多数谈论的是匹配第一部分的一个词。比如“快”可以和“快棕色狐狸”相配。我试过使用标准、关键字、空格等
标记
器
,但我没有得到它。更新pm.Properties(props => props .Multi
浏览 1
提问于2014-05-29
得票数 4
回答已采纳
1
回答
reStructuredText的反规则文法(规则优先
级
)
、
、
我面临的主要问题是:“
如何
在
不
掩盖其他语法规则的情况下匹配任何字符序列(常规文本)?”?我认为为内联
标记
文本编写规则很容易。我的问题: fragment R_BRACKET ; : '_'语法对于inline_markup很好,但是normal_text
浏览 2
提问于2011-05-30
得票数 4
回答已采纳
1
回答
解析
器
跳过行
、
、
我想为的一个子集编写一个简单的解析
器
,生成一些以便进一步处理。我的解析
器
似乎能够处理任何类型的嵌套
浏览 1
提问于2012-05-06
得票数 2
回答已采纳
1
回答
自动补全名称的Analyzer
、
、
此外,我
不
希望jo sm与文档匹配。我现在有这个分析
器
: 'settings' => array( 'analysis' =>max_gram' => 50 ) )); 这样做的问题是,首先我们
拆分
文
浏览 3
提问于2013-06-10
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Transformers回顾:从BERT到GPT4
使用PyTorch II的新特性加快LLM推理速度
秋招之后,我总结了这些常见的问题
Code2prompt:探索高效代码编辑新纪元的开源模型工具
电子商务服务平台CubeCart两个高危漏洞,陷用户于风险之中
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券