| 任务 | 状态 |
|---|---|
| 明确项目目标:生成多肽序列 | [x] |
| 选择入门模型架构:LSTM / VAE | [x] |
| 安装依赖环境 | [x] |
| 加载并划分了示例 CSV 序列数据集 | [x] |
| 明确项目输出目标:申请 Demo,展示跨界建模能力 | [x] |
| 子任务 | 状态 | 说明 |
|---|---|---|
| 下载公开抗菌肽序列数据 | [x] | 当前仅正样本,来源:DRAMP |
| 清洗非法或异常序列 | [x] | 使用正则清理无效字符、超短序列 |
| 序列编码(整数 / one-hot) | [x] | 供训练模型使用 |
| 划分训练集和验证集 | [x] | 使用 sklearn |
| 整理毒性、稳定性等性质标注数据 | [] | 来源包括 ToxinPred、ToxDL 等 |
| 子任务 | 状态 | 说明 |
|---|---|---|
| 实现 LSTM 序列生成器 | [x] | 基于字符级语言模型 |
| 添加 VAE 编码器结构 | [] | 引入潜变量表示,增强生成控制力 |
| 设置基本超参数(如 hidden_dim 等) | [x] | 可后续调整 |
| 完善训练 / 验证 / 推理流程 | [x] | 支持快速测试 |
| 集成 ESM 语言模型作为嵌入器 | [x] | 使用 facebook/esm2_t33_650M_UR50D |
| 构建特征融合模块 | [] | 融合语言/统计/结构特征(early/late fusion) |
| 子任务 | 状态 | 说明 |
|---|---|---|
| 定义预测目标 | [x] | 可扩展至 BindingDB 等 |
| 使用 ESM 语言模型提取嵌入 | [x] | 来自 HuggingFace 或 Facebook |
| 编写嵌入提取函数 | [x] | 保存为 .npy / .csv |
| 清洗并准备公开性质数据集 | [] | 格式统一为 CSV |
| 训练 baseline 分类器(MLP / LightGBM) | [] | 输入 ESM 嵌入向量 |
| 多特征联合建模 | [] | |
| 多指标评价 | [] | 参考 Pareto;无真实标注 |
| 输出可视化评估结果(如 ROC 曲线) | [] | 含混淆矩阵等分析,使用 radar chart、score map 等方式呈现多指标 |
| 封装批量预测接口(对接生成模块) | [] | 支持新序列自动评估 |
多指标评价非常适合此项目,并适宜作为独立研究方向来设计,甚至尝试用强化学习或贝叶斯优化来搜索最优序列组合。这是因为多目标优化能:
- 能进行精度更高的预测;
- 保留了维度信息,支持更清晰的可视化、可解释性和后续优化;
- 可设定阈值过滤,实现早期淘汰低质量序列
- 真实保留 trade-off 关系,保持生物建模的可信性,展现各预测项目的风险与机会;
- 不合成打分项,避免预测生物信息的损失或过拟合
- 能带来一个看起来聪明的打分以便下游使用;
| 子任务 | 状态 | 说明 |
|---|---|---|
| 初步训练并验证 LSTM 模型 | [x] | 跑通 2 轮 epoch |
| 在验证集生成样本,检查多样性 | [x] | 使用 softmax sampling |
| 引入训练技巧如 early stopping | [x] | 防止过拟合,提高鲁棒性 |
| 子任务 | 状态 | 说明 |
|---|---|---|
| 可视化训练过程中的 Loss 曲线 | [x] | 使用 TensorBoard 或 matplotlib |
| 展示多肽生成样例 | [x] | 生成多条序列 |
| 评估序列多样性与分布等指标 | [] | 长度、重复率、AA频率等 |
| 利用 ESM 嵌入评估毒性预测能力 | [x] | 与 baseline 分类器对比 |
| 子任务 | 状态 | 说明 |
|---|---|---|
| 编写 README 或 PPT 总结思路 | [x] | 面向申请场景 |
| 绘制模型结构图 / 数据流程图 | [] | 支持演示 |
| 上传至 GitHub 并进行网页托管 | [x] | 用于查看 demo |
| 增加完整的生成-评估流程图 | [] | 可使用 Mermaid 或绘图软件 |
| 项目 | 说明 |
|---|---|
| 添加条件生成(如毒性标签) | 提升科研与工业实用性 |
| 使用 ProtBert 等语言模型 | 展示前沿建模意识 |
| 微调 TAPE / ESM 等预训练模型 | 强化泛化能力 |
| 使用 Gradio 打包交互界面 | 快速展示生成 + 预测流程 |
| 微调 ESM 最后几层参数 | 深度集成,需较强计算资源 |
| 引入图神经网络建模结构特征 | 融合蛋白3D信息(如AF2结构) |
| 集成 Streamlit 接口 | 更强展示与迭代能力 |
- 预测蛋白热稳定性: Ieva Pudžiuvelytė, Kliment Olechnovič, Egle Godliauskaite, Kristupas Sermokas, Tomas Urbaitis, Giedrius Gasiunas, Darius Kazlauskas, TemStaPro: protein thermostability prediction using sequence representations from protein language models, Bioinformatics, Volume 40, Issue 4, April 2024, btae157, https://doi.org/10.1093/bioinformatics/btae157 [https://academic.oup.com/bioinformatics/article/40/4/btae157/7632735]