
这项由首尔国立大学与OGQ公司、LG CNS联合开展的研究以预印本形式于2026年5月28日发布在arXiv平台编号为arXiv:2605.29429。研究提出了一种名为Chain-of-PromptsCoP提示链的全新框架专门解决医学图像中细胞自动识别与分割这一长期困扰研究者的难题。**一场没有终点的点名游戏**病理医生每天面对的显微镜图像往往密密麻麻地排布着数百甚至数千个细胞。要让计算机准确识别并勾勒出每一个细胞的轮廓传统做法就像班主任在一张大合影前挨个点名——对着照片里的每一张脸逐一确认这是小明这是小红这是小刚……当一张图里有几百张脸时这份工作量之大可想而知。然而医学图像分析的现实需求恰恰如此。计算病理学通俗地说就是用计算机代替人眼来分析病理切片是现代医学诊断中越来越重要的工具而其中最基础的环节之一就是细胞实例分割——不仅要找到图像里有哪些细胞还要精确勾勒出每个细胞的边界就像用马克笔把照片里每个人的轮廓都描出来而且每个人的线条不能相互重叠混淆。现有的计算机视觉模型在处理这个问题时面临一个根本性困境。那些专门为细胞分析训练的模型本质上是靠死记硬背来工作的研究者花大量时间标注特定类型的细胞模型就把这些细胞的长相记住以后看到类似的就认出来。这套方法在训练时见过的细胞上表现不错但一旦遇到没见过的细胞类型性能就会急剧下滑。就像一个只见过中国人脸的人突然被送到北欧认人的准确率就会大打折扣。在原论文给出的具体数字中这种认生程度令人印象深刻。以文章中演示的一张含有未见过细胞类型的病理图像为例某个无监督训练的方法得到的AJI一种衡量分割准确度的指标数值越高越好满分为1只有0.133某个经过完整监督训练的方法也只达到0.228。AJI这个数值可以理解为计算机勾勒的细胞轮廓与真实轮廓的重合程度——分数越低说明计算机要么漏掉了很多细胞要么把边界画得乱七八糟。近年来以SAMSegment Anything Model分割任何东西模型为代表的通用交互式分割模型提供了另一种思路。这类模型不需要专门学习某种细胞只需要用户用鼠标点一下目标它就能自动勾勒出轮廓。理论上这解决了认生问题因为不管什么类型的细胞只要点一下模型就能处理。然而问题也随之而来一张有245个细胞的图像就需要点击245次。把这个乘以临床实践中每天要处理的大量病理切片这个方案的可操作性几乎为零。正是在这个背景下首尔国立大学的研究团队提出了一个简洁而巧妙的问题有没有可能只点击一次就让计算机自动找到图像里所有同类细胞**冰山下的秘密AI眼中的细胞世界早已分门别类**这个想法成立的关键在于研究团队发现了SAM图像编码器可以理解为模型看图的那只眼睛的一个此前未被充分利用的特性。SAM的工作流程可以用一个简单的比方来理解。假设你是一位经验丰富的鉴宝师当一件文物被端到你面前时你首先会用眼睛扫一遍整件物品在脑子里形成一个全面的印象——这是瓷器还是青铜器是哪个朝代的风格各个部位有什么特征。这个扫描建模的过程对应的就是SAM的图像编码器。之后当客户指着某个具体部位问这里有没有裂纹你才开始针对性地回答这对应的是SAM接收用户点击后进行的解码过程。研究团队注意到SAM的图像编码器在扫描建模这一步已经在内部悄悄完成了一件了不起的事它把同一类型的细胞在其内部的特征空间里聚在了一起。特征空间可以理解为一个多维的坐标系不同的细胞在这个坐标系里各占一个位置而同类细胞会自然地聚集在相邻的区域。研究团队用UMAP一种把高维数据可视化的技术把这种聚集现象展示了出来。在SAM编码器的低分辨率特征图中三种不同类型的细胞分别有16个、72个和157个样本在图上形成了三个泾渭分明的聚集区域不同类型之间几乎没有混淆。这个特性完全是自发产生的不需要任何专门针对细胞的训练也不需要提前告诉模型这里有几种细胞。SAM的编码器只是在做它本来的工作——尽可能全面地理解图像中的每一个细节——却无意间完成了细胞分类这件事。这个发现是整个研究的基石。如果同类细胞在特征空间里是聚在一起的那么理论上只要找到一个细胞的特征就能通过计算相似度找到所有与它相似的细胞。这就像在一个陌生城市里找同乡只要你知道老乡的口音、习惯、穿着就能在人群中慢慢辨认出其他说同样方言的人而不需要每一个人都先自我介绍。**两个维度的侦察网络**然而把这个理论想法转化为实际可用的系统并不像说起来那么简单。研究团队遇到了两个紧密相连的技术难题而他们设计的解决方案——正是CoP框架的核心。SAM的图像编码器会产生两种分辨率的特征图。高分辨率特征图就像一张放大了四倍的地图能清楚地看到每一条街道和每一栋建筑但对于这个街区属于哪个城区这样的问题回答得不太准确。低分辨率特征图则像缩小了十六倍的全局地图能清晰地划分各个城区的边界但具体到每条街道就模糊了。用在细胞识别上高分辨率特征图能精确定位每一个细胞的具体位置即使细胞挨得很紧也能分辨但它会把背景组织中和细胞外观有几分相似的区域也标记出来产生大量误报。低分辨率特征图能准确地只响应目标类型的细胞把它们和其他类型的细胞区分开但分辨率太低相邻的细胞往往会被混在一起边界模糊。这两个特征图就像两个各有专长的侦探一个眼神极好能发现细微线索但有时候会把无辜路人当嫌疑人另一个判断力强能准确锁定真正的目标但对具体地点的描述总是不太精确。研究团队提出的**层级相似度门控HSG**机制本质上就是让这两个侦探联合办案。具体做法是先分别计算用户点击位置在高分辨率特征图和低分辨率特征图中的相似度分布然后把两张相似度图做逐元素相乘。这个操作的效果相当于用低分辨率图的准确判断力来过滤高分辨率图中的误报——只有同时被两张图都认可的位置才能通过这个双重审核。过滤之后还需要确定哪些像素点是细胞的中心位置而不仅仅是细胞的某个边缘部分。研究团队采用了连通成分标记CCL的方法——可以理解为把过滤后地图上连成片的高亮区域各自圈出来然后找到每个区域的重心。这些重心点就构成了一批可信点集合每一个可信点都对应着一个很可能是同类细胞的位置。实验数据表明这套双重过滤机制的精准度相当高在整个迭代过程中始终保持在96%以上——也就是说100个被标记出来的点里至少有96个确实是目标细胞。**从点到面的接力赛**HSG解决了如何高精度地找到同类细胞的问题但只靠初始点击周围的相似度计算往往只能覆盖图像的一小片区域。距离初始点击位置较远的细胞由于图像中局部组织环境各异特征相似度会自然衰减单次查找可能遗漏。为了解决覆盖范围不足的问题研究团队设计了**最远点递归FPR**机制。这套机制的逻辑非常直觉化每次HSG产生了一批可信点之后不是停下来而是从这批可信点里挑选一个距离所有已经用过的提示点最远的点把它作为新的出发点重新运行HSG发现更多之前没找到的细胞再把新发现的细胞合并进可信点集合里……如此循环直到某一轮运行之后没有发现任何新的细胞为止。这个策略可以用探险队开路来理解。一支探险队从某个已知的据点出发先把附近区域都探查清楚记录下所有可信的补给点。然后他们从这些补给点里选择距离最远的那一个作为下一个出发地继续向未知领域推进。每次都选最远的地方出发保证了不会在同一片区域反复兜圈子而是尽可能地向整张地图的各个角落延伸。值得注意的是在选择下一个出发点时距离的计算是在图像的物理坐标上进行的而不是在抽象的特征空间里。这个细节很关键因为在特征空间里的距离可能会随着迭代而产生漂移导致探索方向出现偏差而物理坐标上的距离则始终对应着图像上真实的空间位置保证每次递归都在探索真正意义上还没去过的地方。当递归终止后所有轮次累积下来的可信点集合就会被送入SAM的解码器为每一个可信点生成对应的细胞分割掩码。如果某些相邻细胞对应的掩码有重叠则通过IoU大于0.5的非极大值抑制来去重最终得到一套干净的细胞实例分割结果。整个CoP框架就这样构成了一个完整的闭环一次点击触发HSGHSG产生可信点集FPR从可信点集里选出最远点再次触发HSG如此循环直至全图覆盖最后统一解码输出。**数字背后的故事97%的点击省下来了**研究团队在七个标准测试数据集上对CoP进行了全面评估结果从多个角度印证了这套方法的实用价值。在三个带有细胞类型标注的数据集上CoP展现出了最核心的能力。CoNIC数据集包含六种不同类型的细胞CoNSeP包含四种GlaS则是一个结肠腺体分割数据集。在这些数据集上与最先进的基础模型SAM32026年ICLR发表进行对比时SAM3采用逐实例点击每个细胞点一次的方式CoP只需每种细胞类型点一次。具体数字方面在CoNIC数据集上SAM3逐实例点击的AJI为0.641而CoP的方式得到了0.579相当于保留了90%的性能在CoNSeP上SAM3得0.411CoP得0.374同样在90%以上在GlaS上SAM3得0.327CoP得0.292比例相似。与此同时CoP仅需大约3次点击每种细胞类型一次而逐实例方式需要几百次——文中以含有245个细胞的图像为例从245次降低到3次减少了约97%的标注工作量。与此同时CoP的表现全面超越了那些需要大量标注数据进行完整训练的监督学习方法。CellViT是目前细胞分割领域最强的监督模型之一在CoNIC数据集上的AJI只有0.371显著低于CoP的0.579。这意味着仅靠3次点击没有任何额外训练CoP就超过了一个经过精心训练的专门模型。文章中还展示了那些试图用文字描述比如输入cell这个单词或视觉参考图片来代替点击的方法的表现。这些方法要么在某些数据集上完全失效AJI为0要么表现极为不稳定。这是因为文字或图片提示依赖模型在训练时学到的特定领域对应关系而不同细胞类型的病理图像差异巨大这种对应关系往往无法泛化。相比之下点击提示直接查询的是图像编码器的底层特征绕过了领域特定的对齐机制因此能在各种细胞类型上稳定工作。在另外四个不含细胞类型标注的数据集MoNuSeg、TNBC、CryoNuSeg、CPM-17上由于每张图里的细胞形态比较单一CoP只需一次点击即可。结果更为惊人CoP保留了99%以上的逐实例点击性能。在TNBC数据集上SAM3逐实例方式得到AJI 0.752CoP得到0.750差异几乎可以忽略不计。**每个零件的贡献拆解来看才能理解整体**研究团队还进行了系统性的消融实验逐一验证每个设计选择的必要性。这些实验以CoNIC数据集为主要测试场景。去掉FPR递归机制只保留HSG做一次性查找AJI从0.579急剧下降到0.203下降幅度高达65%。这个数字直观地说明单次查找只能覆盖初始点击附近的细胞而递归扩展才是实现全图覆盖的关键。在FPR的选点策略上研究团队比较了选最远点、选最近点和选中间点三种方案。最远点策略得到AJI 0.579最近点策略只有0.492中间点方案得0.515。最近点和中间点的失败原因是相同的它们倾向于在已经探索过的区域附近打转无法有效向未覆盖的区域推进。在HSG的特征融合设计上单独使用高分辨率特征图不经过低分辨率图过滤时AJI降到0.463因为大量来自背景组织的误报会在每一轮递归中被当成新的出发点传播精度在第15轮迭代时已经跌破0.6。单独使用低分辨率特征图时AJI更低只有0.351因为分辨率太低导致提示点定位不准确很多点落在细胞边界甚至背景上。两者结合的方案在整个迭代过程中把精度维持在0.96以上同时保持了与高分辨率图相当的召回率。初始点击位置的敏感性方面研究团队用30个不同的随机种子重复了所有CoNIC实验得到的AJI均值为0.579标准差仅为0.003。这说明CoP对于用户具体点击了哪个细胞这个问题相当鲁棒不需要用户特别精准地点到某个最佳位置。文章也诚实地指出了这套方法的局限。CoP依赖于SAM本身的分割能力——如果有某个细胞即使给了准确的点击SAM也无法正确分割出来那CoP也同样无能为力。此外CoP的前提假设是同类细胞在特征空间里有相对一致的外观如果某种细胞类型内部形态变化极大这个假设可能不成立系统表现就会下降。**运行速度15秒内处理完毕**研究团队还给出了具体的运行时间数据这对实际应用来说同样重要。所有实验都在一张NVIDIA RTX A6000显卡上进行。对于一张1000×1000像素的输入图像SAM图像编码大约需要2秒这是一次性的固定开销。之后每次用户点击触发的CoP流程HSG传播加上FPR迭代直至收敛平均耗时约4秒其中每一次FPR单步迭代大约170毫秒。对于一张含有三种细胞类型的图像整个过程不含编码时间在15秒以内完成。由于CoP完全在特征空间中运算没有任何反向传播所占用的内存开销也很小。**说到底这项研究的价值在哪里**归根结底首尔国立大学这支团队做的事情是发现并利用了一个一直存在却被忽视的规律一个强大的视觉模型在看懂图像的过程中已经顺带完成了细胞分类的工作只是从来没有人设计过一套方法来把这份顺带工作的成果提取出来加以利用。从实际应用角度看这项研究意味着病理分析工作的交互成本可以从标注几百个细胞降低到为每种细胞类型点一次。对于临床病理医生来说一天可能需要分析大量切片这种效率提升的意义相当具体。对于研究者来说这套方法无需重新训练可以直接适用于他们遇到的任何新型细胞不再受限于训练数据。这也引出一个值得思考的问题那些强大的通用视觉模型究竟在它们的特征空间里悄悄编码了多少人类还没充分利用的结构化信息或许下一个突破不是来自更大的模型而是来自对现有模型内部特征的更聪明的使用方式。有兴趣深入了解这项工作的读者可以通过arXiv编号2605.29429查阅完整论文。---QAQ1Chain-of-Prompts方法需要用户具备什么专业背景才能使用AChain-of-Prompts对用户的专业要求很低。用户只需要在图像中识别出有哪几种细胞类型然后对每种类型点击一次系统就会自动完成后续所有的细胞识别和轮廓勾勒工作。点击位置也不需要特别精准实验表明用30个不同的随机位置测试结果的波动极小标准差仅0.003说明随便点一下同类细胞中的任意一个都可以。Q2CoP在什么情况下会失效或表现变差ACoP有两个主要局限。第一它依赖底层的SAM模型如果某个细胞即使给了精准的点击SAM本身也无法正确分割出来那CoP也帮不上忙。第二CoP假设同一类型的细胞在外观特征上比较一致如果某种细胞类型内部形态差异极大系统识别同类细胞的能力就会下降。在形态均一的细胞类型上一次点击就能覆盖99%以上在形态多样的混合类型场景中需要每种类型各点一次性能保留在90%以上。Q3Chain-of-Prompts和直接让AI自动检测所有细胞有什么区别A直接让AI自动检测比如用cell这个词作为文字提示或提供参考图片依赖模型在训练时学到的特定对应关系遇到训练时没见过的细胞类型往往完全失效在多个数据集上AJI直接变为0。Chain-of-Prompts则通过用户提供的一次点击绕过了这个问题直接查询模型的底层特征不依赖任何领域特定的训练因此对未见过的细胞类型也能稳定工作这正是它相比纯自动化方法的核心优势所在。