我正在尝试使用Python获取有关带有cyrillic标签的Instagram照片的信息:
# -*- coding: utf-8 -*-
from instagram import client, subscriptions
from instagram.client import InstagramAPI
api = InstagramAPI(client_id = 'XX', client_secret = 'XX')
p = api.tag_recent_media(tag_name = 'ночь')
for media in p:
我需要创建一个印地语到英语翻译系统使用摩西。我有一个平行语料库,包含大约10000个印地语句子和相应的英语翻译。我遵循了中描述的方法。但是,就在第一阶段,当我想把我的印地语语料库托起并尝试执行时
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l hi < ~/corpus/training/hi-en.hi> ~/corpus/hi-en.tok.hi
,令牌给了我以下输出:
Tokenizer Version 1.1
Language: hi
Number of threads: 1
WARNING: No known abbr