프로젝트 폴더 구조는 다음과 같습니다.
level2-datacentric-nlp-15
├── data
│ ├── test_dataset
│ └── train_dataset
├── models
├── output
├── README.md
├── requirements.txt
├── run.py
└── src
├──arguments.py
├──main.py
├──model.py
├─back_translation
│ └── back_translation.ipynb
│
├─clustering
│ └── clustering.ipynb
│
├─LLM_noise_tasks
│ ├── char_filter.py
│ ├── LLM_aug.ipynb
│ ├── LLM_cleaning_noise.ipynb
│ └── LLM_label_filtering.ipynb
│
├─noun_removal
│ └── noun_analysis.py
│
└─post_processing_cleanlab
└── post_processing.ipynb
• arguments.py : 데이터 증강을 하는 파일
• main.py : 모델 train, eval, prediction 을 수행하는 파일
• model.py : 입력 텍스트와 레이블 데이터를 BERT 모델 학습에 맞게 토크나이즈하고 텐서 형식으로 변환해주는 PyTorch Dataset 구현한 파일
• back_translation.ipynb : 역번역 테스크을 수행하는 파일
• clustering.ipynb : 클러스터링 테스크를 수행하는 파일
• char_filter.py : 불필요한 noise 데이터를 전/후 처리하는 파일
• LLM_aug.ipynb : LLM 을 활용한 데이터 생성, 증강을 수행하는 파일
• LLM_cleaning_noise.ipynb : LLM 을 활용한 noise를 판별하고 denoise을 수행하는 파일
• LLM_label_filtering.ipynb : LLM 을 활용해서 텍스트들의 주제를 뽑고 재-라벨링, 생성을 수행하는 파일
• noun_analysis.py : 단어의 빈도를 분석하여서 데이터를 정제하여 개선을 수행하는 파일
• post_processing.ipynb : cleanlab 을 활용하여서 데이터를 정제, 제거를 수행하는 파일
- python=3.10 환경에서 requirements.txt를 pip로 install 합니다. (pip install -r requirements.txt)
- python run.py를 입력하여 프로그램을 실행합니다.