Skip to content

搭建AI驱动的多肽药物开发框架,从序列生成、性质预测到筛选决策,建立一个集成的端到端平台;推动AI模型与实验系统形成反馈闭环,提升多肽分子的设计效率与成功率,加快临床前药物的发现周期。

Notifications You must be signed in to change notification settings

Limsym/PeptideStream

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

27 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🧬 PeptideStream 项目任务安排

📌 已完成任务

任务 状态
明确项目目标:生成多肽序列 [x]
选择入门模型架构:LSTM / VAE [x]
安装依赖环境 [x]
加载并划分了示例 CSV 序列数据集 [x]
明确项目输出目标:申请 Demo,展示跨界建模能力 [x]

🧩 项目模块拆解(七大模块)

1️⃣ 数据预处理模块

子任务 状态 说明
下载公开抗菌肽序列数据 [x] 当前仅正样本,来源:DRAMP
清洗非法或异常序列 [x] 使用正则清理无效字符、超短序列
序列编码(整数 / one-hot) [x] 供训练模型使用
划分训练集和验证集 [x] 使用 sklearn
整理毒性、稳定性等性质标注数据 [] 来源包括 ToxinPred、ToxDL 等

2️⃣ 模型构建模块

子任务 状态 说明
实现 LSTM 序列生成器 [x] 基于字符级语言模型
添加 VAE 编码器结构 [] 引入潜变量表示,增强生成控制力
设置基本超参数(如 hidden_dim 等) [x] 可后续调整
完善训练 / 验证 / 推理流程 [x] 支持快速测试
集成 ESM 语言模型作为嵌入器 [x] 使用 facebook/esm2_t33_650M_UR50D
构建特征融合模块 [] 融合语言/统计/结构特征(early/late fusion)

3️⃣ 性质预测模块

子任务 状态 说明
定义预测目标 [x] 可扩展至 BindingDB 等
使用 ESM 语言模型提取嵌入 [x] 来自 HuggingFace 或 Facebook
编写嵌入提取函数 [x] 保存为 .npy / .csv
清洗并准备公开性质数据集 [] 格式统一为 CSV
训练 baseline 分类器(MLP / LightGBM) [] 输入 ESM 嵌入向量
多特征联合建模 []
多指标评价 [] 参考 Pareto;无真实标注
输出可视化评估结果(如 ROC 曲线) [] 含混淆矩阵等分析,使用 radar chart、score map 等方式呈现多指标
封装批量预测接口(对接生成模块) [] 支持新序列自动评估

多指标评价非常适合此项目,并适宜作为独立研究方向来设计,甚至尝试用强化学习或贝叶斯优化来搜索最优序列组合。这是因为多目标优化能:

  • 能进行精度更高的预测;
  • 保留了维度信息,支持更清晰的可视化、可解释性和后续优化
  • 可设定阈值过滤,实现早期淘汰低质量序列
  • 真实保留 trade-off 关系,保持生物建模的可信性,展现各预测项目的风险与机会;
  • 不合成打分项,避免预测生物信息的损失或过拟合
  • 能带来一个看起来聪明的打分以便下游使用;

4️⃣ 模型训练与调试模块

子任务 状态 说明
初步训练并验证 LSTM 模型 [x] 跑通 2 轮 epoch
在验证集生成样本,检查多样性 [x] 使用 softmax sampling
引入训练技巧如 early stopping [x] 防止过拟合,提高鲁棒性

5️⃣ 结果评估模块

子任务 状态 说明
可视化训练过程中的 Loss 曲线 [x] 使用 TensorBoard 或 matplotlib
展示多肽生成样例 [x] 生成多条序列
评估序列多样性与分布等指标 [] 长度、重复率、AA频率等
利用 ESM 嵌入评估毒性预测能力 [x] 与 baseline 分类器对比

6️⃣ 展示与发布模块

子任务 状态 说明
编写 README 或 PPT 总结思路 [x] 面向申请场景
绘制模型结构图 / 数据流程图 [] 支持演示
上传至 GitHub 并进行网页托管 [x] 用于查看 demo
增加完整的生成-评估流程图 [] 可使用 Mermaid 或绘图软件

7️⃣ 拓展与进阶模块

项目 说明
添加条件生成(如毒性标签) 提升科研与工业实用性
使用 ProtBert 等语言模型 展示前沿建模意识
微调 TAPE / ESM 等预训练模型 强化泛化能力
使用 Gradio 打包交互界面 快速展示生成 + 预测流程
微调 ESM 最后几层参数 深度集成,需较强计算资源
引入图神经网络建模结构特征 融合蛋白3D信息(如AF2结构)
集成 Streamlit 接口 更强展示与迭代能力

参考资料

  1. 预测蛋白热稳定性: Ieva Pudžiuvelytė, Kliment Olechnovič, Egle Godliauskaite, Kristupas Sermokas, Tomas Urbaitis, Giedrius Gasiunas, Darius Kazlauskas, TemStaPro: protein thermostability prediction using sequence representations from protein language models, Bioinformatics, Volume 40, Issue 4, April 2024, btae157, https://doi.org/10.1093/bioinformatics/btae157 [https://academic.oup.com/bioinformatics/article/40/4/btae157/7632735]

About

搭建AI驱动的多肽药物开发框架,从序列生成、性质预测到筛选决策,建立一个集成的端到端平台;推动AI模型与实验系统形成反馈闭环,提升多肽分子的设计效率与成功率,加快临床前药物的发现周期。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •