尊敬的作者您好,
非常感谢您分享您的代码,您的研究工作对我的科研工作有很大的帮助。
关于您的训练数据我有一些问题,看到代码中 run_config/train-enzh-self.json 文件有 /path/to/CLS_src/train_zh.text.wordseg.norm.bpe 和 /path/to/CLS_tgt/train_en.sum.norm.tok.lowercase.bpe 这样的文件。我的理解是这里给出的应该是分词后的中英文文件。
想问一下您,具体分词的细节是怎么实现的,使用了什么分词器(是Google的sentencepiece吗)。能否给出更详细的数据处理流程呢?
非常感谢您在百忙之中解答我的问题!
再次感谢您的分享。
尊敬的作者您好,
非常感谢您分享您的代码,您的研究工作对我的科研工作有很大的帮助。
关于您的训练数据我有一些问题,看到代码中
run_config/train-enzh-self.json文件有/path/to/CLS_src/train_zh.text.wordseg.norm.bpe和/path/to/CLS_tgt/train_en.sum.norm.tok.lowercase.bpe这样的文件。我的理解是这里给出的应该是分词后的中英文文件。想问一下您,具体分词的细节是怎么实现的,使用了什么分词器(是Google的sentencepiece吗)。能否给出更详细的数据处理流程呢?
非常感谢您在百忙之中解答我的问题!
再次感谢您的分享。