CRISPR-GPT来了！丛乐/王梦迪团队开发自动化设计基因编辑实验的大语言模型，小白也能轻松开展基因编辑研究|crispr|丛乐|基因编辑技术|王梦迪|生物学|科学|编辑实验|自动化

撰文丨王聪

编辑丨王多鱼

排版丨水成文

基因编辑技术代表了一项突破性的科学进步，它能够精准修改生物体的遗传物质。这一创新技术在生物学、医学及农业等各个领域得到了广泛应用，为遗传疾病、癌症、心血管疾病、神经退行性疾病以及感染等复杂疾病提供了新策略。

最著名、最常用的基因编辑系统CRISPR-Cas9，改造自细菌/古菌的免疫防御系统，除了CRISPR-Cas9，基于CRISPR的表观编辑、先导编辑、碱基编辑的进步，进一步拓展了基因编辑技术的应用范围和潜力。

基于CRISPR-Cas的基因编辑系统在导入细胞后，向导RNA（gRNA）识别目标DNA序列，引导Cas酶切割目标DNA。在设计此类实验时，有许多考虑因素，包括选择合适的基因编辑系统，设计最佳gRNA序列和验证方法。这通常需要对基因编辑技术本身以及需要编辑的目标器官的相关生物学有深刻理解，还需要反复试验。

开发人工智能（AI）辅助计算工具来帮助基因编辑具有很大的前景，可以使这项技术更容易获得，并加速科学和治疗的发展。ChatGPT的强大能力，向我们展示了大语言模型（LLM）的巨大潜力，然而，通用型大语言模型往往缺乏特定的专业知识，难以解决生物学设计问题。

2024年4月26日，斯坦福大学丛乐团队与普林斯顿大学王梦迪团队合作，在预印本平台bioRxiv上发表了题为：CRISPR-GPT: An LLM Agent for Automated Design of Gene-Editing Experiments 的研究论文。

该研究开发了一种自动设计基因编辑实验的大语言模型智能体（LLM Agent）——CRISPR-GPT，这是一种通过添加基因编辑领域专业知识和外部工具来自动化和增强基于CRISPR的基因编辑实验设计过程的大语言模型智能体，包括CRISPR基因编辑、表观遗传编辑、先导编辑和碱基编辑。

CRISPR-GPT利用大语言模型的推理能力，简化了选择CRISPR系统、设计gRNA、推荐细胞递送方法、制定实验操作流程和设计验证实验以确认编辑结果的过程。从而帮助弥合不同领域生物学家甚至是初学者与CRISPR基因组编辑技术之间的差距，展示了大语言模型智能体在促进复杂生物发现任务方面的巨大潜力。

丛乐

丛乐，2009年本科毕业于清华大学生物系，2014年获哈佛大学博士学位，博士期间主要在张锋实验室学习，2013年作为第一作者在Science期刊发表了CRISPR基因编辑领域里程碑论文，首次将 CRISPR基因编辑系统应用于哺乳动物基因编辑。丛乐现为斯坦福大学助理教授，致力于开发大规模基因编辑和单细胞扰动-表征技术，整合宏基因组学、计算生物学和机器学习的最新技术。

王梦迪

王梦迪，本科毕业于清华大学自动化系，23岁时获得麻省理工学院（MIT）电子工程与计算机博士学位，同年加入普林斯顿大学任助理教授，29岁时获得普林斯顿大学终身教职。王梦迪团队近期开发了首个mRNA 5'UTR的语言模型——

虽然利用大语言模型（LLM）辅助基因编辑实验的设计具有诱人的前景，但当前主流的通用型模型在这一专业领域存在显著不足。尽管这些大语言模型拥有庞大的知识库，但它们缺乏精确、及时的特定领域知识，这对于准确设计生物实验至关重要。

通用型大语言模型的一个主要局限性在于它们容易产生“幻觉”或在执行特定生物查询任务时生成自信但不准确的响应。这种“幻觉”设计的序列不仅没有实用价值，还可能误导研究人员，浪费资源和时间。此外，通用型大语言模型还通常缺乏实验设计所需的必要细节，例如特定的材料、实验操作方案、脱靶效应考虑、gRNA效率和特异性等。这些不足可能会使研究人员（尤其是那些刚进入基因编辑领域的研究人员）无法为实验的实际执行做好准备。通用型大语言模型生成的回复中还可能包含大量与基因编辑实验设计无关的信息，这些无关信息可能会导致混淆和误导，使研究人员难以确定哪些实现其基因编辑目标所需要的。

这些局限性凸显了开发一类专门针对基因编辑实验设计的新型大语言模型的必要性，此类模型需要将深入、准确的基因编辑领域专业知识与批判性评估和生成可行解决方案的能力相结合，从而克服通用型大语言模型在设计CRISPR基因编辑实验时面临的障碍。

在快速发展的基因工程领域中，CRISPR技术已成为精确基因编辑的关键工具。尽管前景诱人，但从gRNA选择到预测脱靶效应的CRISPR实验设计过程复杂，给初学者带来了巨大挑战。为了填补这一空白，研究团队推出了CRISPR-GPT，这是一种结合了大型语言模型（LLM）的强大功能、领域特定知识和计算工具的新型解决方案，专门针对CRISPR基因编辑任务。

CRISPR-GPT是以定制的基于大语言模型的规划和设计智能体为核心，该智能体引擎不仅借鉴了基因编辑领域前沿专业知识，还广泛整合了近期发表的文献以及一系列计算工具包。

CRISPR-GPT智能体的创新之处在于，它通过简化原本复杂的过程并将其分解为一系列可管理的步骤，实现了自动化的基因编辑实验设计：

CRISPR系统选择：根据实验需求定制CRISPR系统选择
gRNA设计：基于Broad研究所的金标准gRNA库和CRISPick工具，优化gRNA序列以提高效率和特异性
递送方法选择：建议最有效的将CRISPR组分导入目标细胞的方法
预测脱靶效应：评估潜在的非预期编辑
推荐实验方案：概述针对实验目标的分步骤程序
验证方法推荐和引物设计：推荐验证编辑并帮助设计相关引物的方法

这种方法利用思维链推理模型和状态机，确保即使是刚接触基因编辑的个人也可以迭代地完善他们的实验设计，以实现满足他们特定研究需求的实验方案流程设计。

此外，CRISPR-GPT还提供：

一种自由式问答模式，用于精确回答临时性查询
一种脱靶预测模式，用于深入分析预先设计的gRNA

这些功能可在用户进行基因编辑实验设计过程中遇到额外问题时提供帮助。

CRISPR-GPT智能体：CRISPR-GPT建立在大语言模型（LLM）驱动的设计和规划引擎之上，能够完成4个核心元任务（CRISPR基因敲除、表观编辑、先导编辑、碱基编辑）以及其他辅助功能（自由问答，脱靶预测），CRISPR-GPT集成了一组有用的技能和工具包，大语言模型智能体（LLM Agent）在需要时可以调用这些技能和工具包，以帮助人类用户完成不同的任务和子任务。

考虑到基因编辑技术在伦理和安全方面的考虑，尤其是在人类应用方面的考虑，研究团队已将安全保障措施融入CRISPR-GPT。这些措施包括限制其在人类受试者中的使用、确保遗传信息隐私的措施，以及对潜在的意想不到后果的警报。

CRISPR-GPT智能体由以下4个核心模块组成：LLM Planner、Tool Provider、Task Executor和LLM Agent。

CRISPR-GPT智能体使人类与AI能够协同工作，自动化执行复杂的基因编辑实验设计任务。LLM Planner负责根据用户需求配置任务，Tool Provider将系统连接到外部API、工具、库和文档。Task Executor作为状态机，负责提供指令和反馈，从LLM Agent接收输入，并通过Tool Provider调用API。LLM Agent负责代表用户与Task Executor交互，用户可以监视过程并向LLM Agent提供反馈。

CRISPR-GPT的组成模块及其交互

CRISPR-GPT基因编辑实验设计交互模块概述

研究团队将CRISPR-GPT和ChatGPT3.5和ChatGPT4.0进行了比较，结果显示，CRISPR-GPT 在三种不同模式（MetaMode、AutoMode和QAMode）下的一系列基因编辑实验设计任务中，无论是综合评分，还是准确性、推理能力、完整性和简洁性这4个方面方面评分，都全面优于ChatGPT3.5和ChatGPT4.0。