ColabFold 五分钟预测蛋白质结构:零门槛 AI 结构预测教程

🧬 ColabFold 五分钟预测蛋白质结构

零门槛、免费 GPU、无需安装 —— 在浏览器里完成 AlphaFold 2 级别的蛋白质结构预测。

为什么选 ColabFold?

AlphaFold 2 改变了结构生物学,但本地部署需要高端 GPU 和数百 GB 数据库。ColabFold 把这一切搬到了 Google Colab 云端:

  • 完全免费 —— 使用 Google 提供的 GPU(T4/A100)
  • 零安装 —— 打开浏览器就能跑
  • 速度快 —— 用 MMseqs2 替代 HHblits 做 MSA,比原版 AlphaFold 2 快数倍
  • 多模型 —— 支持 AlphaFold2、RoseTTAFold2、ESMFold、Boltz
  • 预测复合物 —— 蛋白-蛋白、蛋白-DNA/RNA、蛋白-小分子

📄 参考文献:Mirdita et al., “ColabFold: Making protein folding accessible to all.” Nature Methods (2022)

Step 1:打开 ColabFold Notebook

点击下方链接,在新标签页中打开 Google Colab:

🚀 打开 ColabFold AlphaFold2 Notebook

打开后你会看到一个 Jupyter Notebook,里面有几个代码单元格(cell)。不需要理解代码,只需要改一个地方。

Step 2:输入你的蛋白质序列

在 Notebook 顶部找到 query_sequence 输入框,把默认序列替换成你要预测的蛋白质氨基酸序列。

示例(人溶菌酶 LYZ,130 个残基):

KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQAWIRGCRL

注意事项

  • 只输入氨基酸单字母代码(ACDEFGHIKLMNPQRSTVWY)
  • 不要包含 FASTA 头行(>sp|P61626|…)
  • 序列长度建议 < 1000 残基(免费 GPU 内存限制约 16GB)
  • 预测复合物时,用 : 分隔不同链的序列

Step 3:选择运行参数

大多数情况保持默认即可。几个关键参数:

参数默认说明
num_models5生成 5 个模型取最优。想快就改 1
use_amberFalse开启 Amber 力场松弛(更精准但慢)
template_modenone使用已知模板辅助预测(提高精度)
msa_modemmseqs2_uniref_env默认搜索 UniRef + 环境序列

Step 4:运行全部单元格

点击顶部菜单 Runtime → Run all(或按 Ctrl+F9)。整个过程:

  1. 环境安装(~2 分钟)—— 自动安装 ColabFold 和依赖
  2. MSA 生成(~1 分钟)—— MMseqs2 搜索同源序列
  3. 结构预测(~2-5 分钟,取决于序列长度和模型数)
  4. 结果展示 —— 自动生成 3D 可视化 + 质量评估图

⏱ 总耗时:约 5-10 分钟(130 残基的蛋白质)。

Step 5:解读结果

pLDDT 置信度分数

ColabFold 会输出一个 pLDDT(per-residue confidence score)图。颜色含义:

  • 🟦 深蓝 (pLDDT > 90):高置信度,结构可信
  • 🟩 青色 (70-90):较可信
  • 🟨 黄色 (50-70):低置信度,可能是 loop 或无序区
  • 🟥 橙/红 (< 50):预测不可靠

PAE 图(Predicted Aligned Error)

对角线上的蓝色方块代表结构域内的可信距离预测。对于多链复合物,非对角蓝色区域表示链间接触的高置信度。

下载结果

预测完成后,结果自动下载为 .zip 文件,包含:

  • *_relaxed_rank_001.pdb —— 最优结构(PDB 格式)
  • *_pae.json —— PAE 矩阵
  • *_scores.json —— 置信度评分
  • PNG 图片 —— 结构可视化

进阶:本地安装 ColabFold

如果你需要批量预测或更大内存,可以本地安装:

# 创建 conda 环境
conda create -n colabfold -c conda-forge -c bioconda 
    python=3.13 kalign2=2.04 hhsuite=3.3.0 mmseqs2=18.8cc5c
conda activate colabfold

# 安装 ColabFold + AlphaFold 后端
pip install colabfold[alphafold,openmm] jax[cuda] openmm[cuda12]

# 运行预测
colabfold_batch input.fasta output_dir/

硬件需求:NVIDIA GPU(16GB+ VRAM),128GB+ RAM(如需本地 MSA 数据库则需 940GB SSD)。

常见问题

Q: Colab 断开连接怎么办?

免费 Colab 有时间限制且可能因为闲置断开。可以用 Colab Pro($9.99/月)获得更长运行时间和更好 GPU。

Q: 序列太长怎么办?

免费 T4 GPU(16GB VRAM)约支持 1000 残基。更长的蛋白质:切成结构域分别预测,或用 Colab Pro 的 A100 GPU。

Q: 如何可视化 PDB 文件?

  • PyMOL(桌面软件,最专业)
  • UCSF ChimeraX(免费,适合出版级图片)
  • Mol*在线浏览器,上传 PDB 即可看)

相关工具

在基因坊工具库中查看更多 AI 结构预测工具:

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容