ColabFold 五分钟预测蛋白质结构：零门槛 AI 结构预测教程-基因街

🧬 ColabFold 五分钟预测蛋白质结构

零门槛、免费 GPU、无需安装 —— 在浏览器里完成 AlphaFold 2 级别的蛋白质结构预测。

为什么选 ColabFold？

AlphaFold 2 改变了结构生物学，但本地部署需要高端 GPU 和数百 GB 数据库。ColabFold 把这一切搬到了 Google Colab 云端：

✅ 完全免费 —— 使用 Google 提供的 GPU（T4/A100）
✅ 零安装 —— 打开浏览器就能跑
✅ 速度快 —— 用 MMseqs2 替代 HHblits 做 MSA，比原版 AlphaFold 2 快数倍
✅ 多模型 —— 支持 AlphaFold2、RoseTTAFold2、ESMFold、Boltz
✅ 预测复合物 —— 蛋白-蛋白、蛋白-DNA/RNA、蛋白-小分子

📄 参考文献：Mirdita et al., “ColabFold: Making protein folding accessible to all.” Nature Methods (2022)

Step 1：打开 ColabFold Notebook

点击下方链接，在新标签页中打开 Google Colab：

🚀 打开 ColabFold AlphaFold2 Notebook

打开后你会看到一个 Jupyter Notebook，里面有几个代码单元格（cell）。不需要理解代码，只需要改一个地方。

Step 2：输入你的蛋白质序列

在 Notebook 顶部找到 query_sequence 输入框，把默认序列替换成你要预测的蛋白质氨基酸序列。

示例（人溶菌酶 LYZ，130 个残基）：

KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQAWIRGCRL

注意事项：

只输入氨基酸单字母代码（ACDEFGHIKLMNPQRSTVWY）
不要包含 FASTA 头行（>sp|P61626|…）
序列长度建议 < 1000 残基（免费 GPU 内存限制约 16GB）
预测复合物时，用 : 分隔不同链的序列

Step 3：选择运行参数

大多数情况保持默认即可。几个关键参数：

参数	默认	说明
`num_models`	5	生成 5 个模型取最优。想快就改 1
`use_amber`	False	开启 Amber 力场松弛（更精准但慢）
`template_mode`	none	使用已知模板辅助预测（提高精度）
`msa_mode`	mmseqs2_uniref_env	默认搜索 UniRef + 环境序列

Step 4：运行全部单元格

点击顶部菜单 Runtime → Run all（或按 Ctrl+F9）。整个过程：

环境安装（~2 分钟）—— 自动安装 ColabFold 和依赖
MSA 生成（~1 分钟）—— MMseqs2 搜索同源序列
结构预测（~2-5 分钟，取决于序列长度和模型数）
结果展示 —— 自动生成 3D 可视化 + 质量评估图

⏱ 总耗时：约 5-10 分钟（130 残基的蛋白质）。

Step 5：解读结果

pLDDT 置信度分数

ColabFold 会输出一个 pLDDT（per-residue confidence score）图。颜色含义：

🟦 深蓝 (pLDDT > 90)：高置信度，结构可信
🟩 青色 (70-90)：较可信
🟨 黄色 (50-70)：低置信度，可能是 loop 或无序区
🟥 橙/红 (< 50)：预测不可靠

PAE 图（Predicted Aligned Error）

对角线上的蓝色方块代表结构域内的可信距离预测。对于多链复合物，非对角蓝色区域表示链间接触的高置信度。

下载结果

预测完成后，结果自动下载为 .zip 文件，包含：

*_relaxed_rank_001.pdb —— 最优结构（PDB 格式）
*_pae.json —— PAE 矩阵
*_scores.json —— 置信度评分
PNG 图片 —— 结构可视化

进阶：本地安装 ColabFold

如果你需要批量预测或更大内存，可以本地安装：

# 创建 conda 环境
conda create -n colabfold -c conda-forge -c bioconda 
    python=3.13 kalign2=2.04 hhsuite=3.3.0 mmseqs2=18.8cc5c
conda activate colabfold

# 安装 ColabFold + AlphaFold 后端
pip install colabfold[alphafold,openmm] jax[cuda] openmm[cuda12]

# 运行预测
colabfold_batch input.fasta output_dir/

硬件需求：NVIDIA GPU（16GB+ VRAM），128GB+ RAM（如需本地 MSA 数据库则需 940GB SSD）。

常见问题

Q: Colab 断开连接怎么办？

免费 Colab 有时间限制且可能因为闲置断开。可以用 Colab Pro（$9.99/月）获得更长运行时间和更好 GPU。

Q: 序列太长怎么办？

免费 T4 GPU（16GB VRAM）约支持 1000 残基。更长的蛋白质：切成结构域分别预测，或用 Colab Pro 的 A100 GPU。

Q: 如何可视化 PDB 文件？

PyMOL（桌面软件，最专业）
UCSF ChimeraX（免费，适合出版级图片）
Mol*（在线浏览器，上传 PDB 即可看）

ColabFold 五分钟预测蛋白质结构：零门槛 AI 结构预测教程