基因泰克：检测级虚拟细胞基准！大语言模型+智能体

作者：Omics Pro日期：2026/6/1

摘要

机器学习与大规模生物数据的进展重新激发了构建虚拟细胞（预测细胞行为的计算模型，可加速生物学发现）的研究前景。该愿景的核心应用是体外表型筛选，即模型预测细胞扰动在未知生物场景下的效应，该任务融合异质文本输入与多样表型输出，高度适配大语言模型与智能体系统。但目前该任务缺乏标准化基准，现有研究仅聚焦分子层面读数，与真实药物研发流程中的表型终点脱节。本研究推出基于1,920个公开CRISPR筛选构建的表型筛选预测基准AssayBench，覆盖５大类细胞表型；将筛选预测任务定义为单筛选基因排序任务，提出调整型归一化折损累积增益（AnDCG）用于异质检测的统一评估。大量评估表明，现有方法远未达到经验性能上限，零样本通用大语言模型优于生物专用模型与可训练基线；微调、集成、提示优化可进一步提升模型性能。总体而言，AssayBench为体外表型筛选与虚拟细胞模型研究提供了实用测试平台，基准已开源。

https://github.com/Genentech/AssayBench

{debroue1,edwarc24,wua33,scaliag}@gene.com

#虚拟细胞 #表型筛选 #CRISPR筛选 #大语言模型 #智能体 #基准测试 #调整型归一化折损累积增益 #多组学数据

数据准备

筛选数据整理与归一化

表1 按数据划分的AssayBench数据集统计信息

基准总条目数、训练/验证/测试/最新集的条目占比、唯一筛选数量、单筛选平均检测基因数、合并重复条目数，以及5大表型类别在各划分集中的数量与占比。

提示词生成

图1 AssayBench基准构建流程概览

(A) 从1,971个人类CRISPR筛选出发，经数据质量过滤、技术重复合并、数据增强，最终得到1,920个高质量筛选条目；

(B) 数据集的表型构成与4大划分集分布，采用贴合真实场景的时序划分策略；

(C) 给定筛选描述与排序规则，模型需输出100个按表型显著性从高到低排序的基因。

实验结果

前沿通用大语言模型领跑基准测试性能

表2 测试集各模型的AnDCG@100、精确率@100与定向错误发现率@100结果

箭头指示指标优劣（↑数值越高性能越好，↓数值越低性能越好），展示不同模型在测试集上的3项核心评估指标数值。

最优模型仍远未达到性能上限

图2 主流模型性能与技术重复基线对比

(左) 按模型类别着色的主流模型AnDCG@k数值；

(右) 基于32个技术重复筛选，对比Gemini 3 Pro与技术重复基线的AnDCG@100性能。

预测性能随表型类型与模型规模变化

图 3 测试集部分模型按表型划分的AnDCG@100性能

展示选定模型在5大表型类别上的AnDCG@100数值，体现不同表型的预测难度差异。

图 4 模型参数规模效应与性能协变量回归分析

(左) Qwen3.5系列模型参数规模与AnDCG@100的关系，大模型（混合专家模型）性能上升并趋于平稳；

(右) 发表年份、表型、引用量对Gemini 3 Pro性能的回归系数，引用量为极显著影响因素。

大语言模型的生物偏好性评估

图 5 不同模型的生物偏好性评分

展示各模型在疾病相关基因、发育生物学基因、细胞周期基因集上的偏好偏差，正值代表模型过度代表该类基因，负值代表代表不足。

详细总结

思维导图

参考

AssayBench: An Assay-Level Virtual Cell Benchmark for LLMs and Agents

https://doi.org/10.48550/arXiv.2605.10876

260511AssayBench.pdf

注：AI辅助创作，如有错误欢迎指出。内容仅供参考，不构成任何建议。

《基因泰克：检测级虚拟细胞基准！大语言模型+智能体》是转载文章，点击查看原文。

上一篇：【Redis】网络高并发模型

下一篇：译 · Jake Wharton 访谈：Android 圈最熟悉的那个名字

相关推荐

Spring MVC 的核心知识点梳理

huohuopro2026/5/11

MVC 是什么 MVC 不是 Spring 发明的，而是一种设计模式，目的是“解耦”。 M（Model，模型）：数据 + 业务逻辑。比如 Teacher 类，TeacherService。V（View，视图）：展示数据的界面。比如 JSP、Thymeleaf 模板，或者是现代返回 JSON 的前端页面。C（Controller，控制器）：接收用户请求，调用 Model，最后选择 View 来展示。流程：用户点击一个链接 → Controller 拿到请求 → 调 Service 拿到数据（Mo

精准医学的数据平台化与Python编程实战（中）

Allen_Lyb2026/5/1

第五章：高性能数据处理与分析 5.1 使用Pandas进行临床数据清洗与特征工程 import pandas as pd import numpy as np from sklearn.impute import SimpleImputer from sklearn.preprocessing import StandardScaler, OneHotEncoder # 加载模拟临床数据 df = pd.read_csv('clinical_cohort.csv') # 处理缺失值 nu

每天刷十几个平台的热榜太累了？我用一个页面全部搞定

扑克中的黑桃A2026/4/22

这里写目录标题前言1.什么是DailyHot？2.在飞牛OS上部署DailyHot3.docker部署DailyHot4.使用DailyHot5.安装cpolar内网穿透6.配置公网地址7.保留固定公网地址总结前言每天看热点，你要打开几个 App？微博、知乎、Hacker News、V2EX、豆瓣、少数派……每个平台都有热榜，每个平台都得点进去刷一遍。等把这些都刷完，半个小时过去了，真正有用的信息反而被稀释了。而且还有个更现实的问题——你在公司想看看知乎热榜发生了啥，

LangGraph 入门到精通0x02：基础 API (二)

chaors2026/4/14

前言今天继续学习一些 LangGraph 常用到的基础 API。废话少说上干货。 .点语法 Graph 的创建可以使用看着更简洁的 .语法。 graph = ( StateGraph(State) .add_node(a) .add_node(b) .add_edge(START, "a") .add_edge("a", "b") .add_edge("b", END) .compile() ) 步骤序列 StateGraph(St

你的 Android App 可能白白损失了 35% 的性能——R8 全模式配置详解

陆业聪2026/4/6

字节跳动的工程师优化启动速度时，可能花了数周分析 trace、改代码；Monzo 的团队却只改了一行配置，性能指标全线提升了 35%。这不是段子，是 Google 官方 blog 2026 年 3 月底发出来的案例。问题来了：你的项目，是不是也开着 R8，但根本没用对？ R8 到底做了什么——大多数人理解是错的很多人对 R8 的理解停留在「代码混淆 + 压缩」。打开 minifyEnabled true，觉得任务完成了。但 R8 实际上分两种工作模式： • 兼容模式（Compatibili

核心概念层——深入理解 Agent 是什么

想打游戏的程序猿2026/3/28

1 Agent vs ChatBot：从根本上理解区别 1.1 一个直观的例子假设你对 AI 说："帮我分析一下我们公司上周的销售数据，找出表现最好的产品，并给团队发一封总结邮件"。 ChatBot 的反应： ChatBot: "要分析销售数据，你可以按以下步骤操作： 1. 打开数据库，执行 SQL 查询获取上周的销售记录 2. 使用 Excel 或 Python 进行数据汇总 3. 找出销售额最高的产品 4. 撰写邮件总结发送给团队你需要我帮你写 SQL 查询语句吗？" → ChatB

配置钉钉龙虾OpenClaw机器人调用OpenMetadata

光于前裕于后2026/3/20

目录一、前言1️⃣钉钉（DingTalk）2️⃣OpenClaw3️⃣OpenMetadata4️⃣MCP（Model Context Protocol）二、安装OpenClaw三、配置OpenClaw钉钉机器人四、调用OpenMetadata MCP 一、前言先介绍下这四个工具/协议的定位与核心能力，本文将从零开始配置。 1️⃣钉钉（DingTalk）阿里巴巴旗下的企业协作平台，2014年上线，是中国市场份额最大的企业即时通讯与办公套件之一。核心能

10分钟搭建 Windows + WSL + Codex环境

Lei_official2026/3/12

并不是 AI 替代人，而是会用 AI 的人替代不会用 AI 的人。我的大模型使用历程从2023年秋季，我开始使用对话型的大模型，提升工作和学习的效率，以及回答一些生活上的常识问题。最开始是 ChatGPT 的免费版本，随着使用频率提高，慢慢会遇到问答超过上限的情况。随后便开通了Plus订阅直至今日。期间也曾使用过 Deepseek、Gemini、Minimax 等等，不过最主要的仍然是 ChatGPT，个人感觉它在回答的质量、速度、上下文方面体验最好。在这段历程里，网页对话型的 AI

MySQL中 SHOW FULL PROCESSLIST` 输出中 `State` 列的所有可能值

左Python右Java2026/3/4

SHOW FULL PROCESSLIST输出中State` 列的所有可能值，以及这些值代表的含义，这能帮你精准判断数据库连接的状态（包括锁相关、执行状态等）。一、State 列核心分类及含义 State 列描述了当前线程正在执行的操作状态，不同状态对应不同的数据库行为，以下是最常见且实用的分类（按场景划分）： 1. 锁相关状态（排查锁表核心）这是你最关心的锁表相关状态，直接反映锁等待 / 阻塞：状态值含义Waiting for t

326. Java Stream API - 实现自定义的 toList() 与 toSet() 收集器

yaoxin5211232026/2/23

文章目录 326. Java Stream API - 实现自定义的 `toList()` 与 `toSet()` 收集器📦 实现一个自定义 `toList()` 收集器🚀 使用我们的 `ToList` 收集器🔄 将其改造成 `toSet()` 收集器✅ 修改 1：使用 `HashSet` 作为容器✅ 修改 2：声明该收集器是无序的 🧪 `ToSet` 收集器完整实现示例🎯 总结一下关键点🧠 小贴士 326. Java Stream API - 实现自定义的 toL

上一篇：【Redis】网络高并发模型

下一篇：译 · Jake Wharton 访谈：Android 圈最熟悉的那个名字

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 聚合阅读