iOS自带超强中文分词器说明实现

Cloudox

发布于 2021-11-23 06:10:14

49300

代码可运行

文章被收录于专栏：月亮与二进制月亮与二进制

运行总次数：0

代码可运行

说明

在处理文本的时候，第一步往往是将字符串进行分词，得到一个个关键词。苹果从很早就开始支持中文分词了，而且我们几乎人人每天都会用到，回想一下，在使用手机时，长按一段文字，往往会选中按住位置的一个词语，这里就是一个分词的绝佳用例，而iOS自带的分词效果非常棒，大家可以自己平常注意观察一下，基本对中文也有很好的效果。而这个功能也开放了API供开发者调用，我试用了一下，很好用！

效果如下：

实现

其实苹果给出了完整的API，想要全面了解的可以直接看文档：CFStringTokenizer Reference

这里说说简单的一个实现：

    // 要分词的字符串
    NSString *string = @"侠士隐锋，莽夫露刃";
    
    self.keywords = [[NSMutableArray alloc] init];
    CFStringTokenizerRef ref = CFStringTokenizerCreate(NULL,  (__bridge CFStringRef)string, CFRangeMake(0, string.length), kCFStringTokenizerUnitWord, NULL);// 创建分词器
    CFRange range;// 当前分词的位置
    // 获取第一个分词的范围
    CFStringTokenizerAdvanceToNextToken(ref);
    range = CFStringTokenizerGetCurrentTokenRange(ref);
    
    // 循环遍历获取所有分词并记录到数组中
    NSString *keyWord;
    while (range.length>0) {
        keyWord = [string substringWithRange:NSMakeRange(range.location, range.length)];
        [self.keywords addObject:keyWord];
        CFStringTokenizerAdvanceToNextToken(ref);
        range = CFStringTokenizerGetCurrentTokenRange(ref);
    }