🧬 ColabFold 五分钟预测蛋白质结构
零门槛、免费 GPU、无需安装 —— 在浏览器里完成 AlphaFold 2 级别的蛋白质结构预测。
为什么选 ColabFold?
AlphaFold 2 改变了结构生物学,但本地部署需要高端 GPU 和数百 GB 数据库。ColabFold 把这一切搬到了 Google Colab 云端:
- ✅ 完全免费 —— 使用 Google 提供的 GPU(T4/A100)
- ✅ 零安装 —— 打开浏览器就能跑
- ✅ 速度快 —— 用 MMseqs2 替代 HHblits 做 MSA,比原版 AlphaFold 2 快数倍
- ✅ 多模型 —— 支持 AlphaFold2、RoseTTAFold2、ESMFold、Boltz
- ✅ 预测复合物 —— 蛋白-蛋白、蛋白-DNA/RNA、蛋白-小分子
📄 参考文献:Mirdita et al., “ColabFold: Making protein folding accessible to all.” Nature Methods (2022)
Step 1:打开 ColabFold Notebook
点击下方链接,在新标签页中打开 Google Colab:
🚀 打开 ColabFold AlphaFold2 Notebook
打开后你会看到一个 Jupyter Notebook,里面有几个代码单元格(cell)。不需要理解代码,只需要改一个地方。
Step 2:输入你的蛋白质序列
在 Notebook 顶部找到 query_sequence 输入框,把默认序列替换成你要预测的蛋白质氨基酸序列。
示例(人溶菌酶 LYZ,130 个残基):
KVFGRCELAAAMKRHGLDNYRGYSLGNWVCAAKFESNFNTQATNRNTDGSTDYGILQINSRWWCNDGRTPGSRNLCNIPCSALLSSDITASVNCAKKIVSDGNGMNAWVAWRNRCKGTDVQAWIRGCRL
注意事项:
- 只输入氨基酸单字母代码(ACDEFGHIKLMNPQRSTVWY)
- 不要包含 FASTA 头行(>sp|P61626|…)
- 序列长度建议 < 1000 残基(免费 GPU 内存限制约 16GB)
- 预测复合物时,用
:分隔不同链的序列
Step 3:选择运行参数
大多数情况保持默认即可。几个关键参数:
| 参数 | 默认 | 说明 |
|---|---|---|
num_models | 5 | 生成 5 个模型取最优。想快就改 1 |
use_amber | False | 开启 Amber 力场松弛(更精准但慢) |
template_mode | none | 使用已知模板辅助预测(提高精度) |
msa_mode | mmseqs2_uniref_env | 默认搜索 UniRef + 环境序列 |
Step 4:运行全部单元格
点击顶部菜单 Runtime → Run all(或按 Ctrl+F9)。整个过程:
- 环境安装(~2 分钟)—— 自动安装 ColabFold 和依赖
- MSA 生成(~1 分钟)—— MMseqs2 搜索同源序列
- 结构预测(~2-5 分钟,取决于序列长度和模型数)
- 结果展示 —— 自动生成 3D 可视化 + 质量评估图
⏱ 总耗时:约 5-10 分钟(130 残基的蛋白质)。
Step 5:解读结果
pLDDT 置信度分数
ColabFold 会输出一个 pLDDT(per-residue confidence score)图。颜色含义:
- 🟦 深蓝 (pLDDT > 90):高置信度,结构可信
- 🟩 青色 (70-90):较可信
- 🟨 黄色 (50-70):低置信度,可能是 loop 或无序区
- 🟥 橙/红 (< 50):预测不可靠
PAE 图(Predicted Aligned Error)
对角线上的蓝色方块代表结构域内的可信距离预测。对于多链复合物,非对角蓝色区域表示链间接触的高置信度。
下载结果
预测完成后,结果自动下载为 .zip 文件,包含:
*_relaxed_rank_001.pdb—— 最优结构(PDB 格式)*_pae.json—— PAE 矩阵*_scores.json—— 置信度评分- PNG 图片 —— 结构可视化
进阶:本地安装 ColabFold
如果你需要批量预测或更大内存,可以本地安装:
# 创建 conda 环境
conda create -n colabfold -c conda-forge -c bioconda
python=3.13 kalign2=2.04 hhsuite=3.3.0 mmseqs2=18.8cc5c
conda activate colabfold
# 安装 ColabFold + AlphaFold 后端
pip install colabfold[alphafold,openmm] jax[cuda] openmm[cuda12]
# 运行预测
colabfold_batch input.fasta output_dir/
硬件需求:NVIDIA GPU(16GB+ VRAM),128GB+ RAM(如需本地 MSA 数据库则需 940GB SSD)。
常见问题
Q: Colab 断开连接怎么办?
免费 Colab 有时间限制且可能因为闲置断开。可以用 Colab Pro($9.99/月)获得更长运行时间和更好 GPU。
Q: 序列太长怎么办?
免费 T4 GPU(16GB VRAM)约支持 1000 残基。更长的蛋白质:切成结构域分别预测,或用 Colab Pro 的 A100 GPU。
Q: 如何可视化 PDB 文件?
- PyMOL(桌面软件,最专业)
- UCSF ChimeraX(免费,适合出版级图片)
- Mol*(在线浏览器,上传 PDB 即可看)
相关工具
在基因坊工具库中查看更多 AI 结构预测工具:

暂无评论内容