Skip to content

关于数据集的问题 #1

@Youggls

Description

@Youggls

尊敬的作者您好,
非常感谢您分享您的代码,您的研究工作对我的科研工作有很大的帮助。
关于您的训练数据我有一些问题,看到代码中 run_config/train-enzh-self.json 文件有 /path/to/CLS_src/train_zh.text.wordseg.norm.bpe/path/to/CLS_tgt/train_en.sum.norm.tok.lowercase.bpe 这样的文件。我的理解是这里给出的应该是分词后的中英文文件。
想问一下您,具体分词的细节是怎么实现的,使用了什么分词器(是Google的sentencepiece吗)。能否给出更详细的数据处理流程呢?
非常感谢您在百忙之中解答我的问题!
再次感谢您的分享。

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions