关于数据集的问题

尊敬的作者您好，
非常感谢您分享您的代码，您的研究工作对我的科研工作有很大的帮助。
关于您的训练数据我有一些问题，看到代码中 `run_config/train-enzh-self.json` 文件有 `/path/to/CLS_src/train_zh.text.wordseg.norm.bpe` 和 `/path/to/CLS_tgt/train_en.sum.norm.tok.lowercase.bpe` 这样的文件。我的理解是这里给出的应该是分词后的中英文文件。
想问一下您，具体分词的细节是怎么实现的，使用了什么分词器（是Google的sentencepiece吗）。能否给出更详细的数据处理流程呢？
非常感谢您在百忙之中解答我的问题！
再次感谢您的分享。