像机器一样思考：人工智能和临床应用

邓文龙 · 发表于 2017-7-22 13:26:00

本帖最后由顾汉现于 2017-7-22 15:09 编辑

像机器一样思考：人工智能和临床应用

来源：seqAI 2017-05-18 13:49“

1.AI在临床的应用

每个人都在讨论人工智能。不妨忘记AI，想想：临床医生如何决策？

医生接触病人，用问询/查体/检测报告得到病人信息(profile)，然后在大脑进行如下搜索：业内对这些信息的共识(指南)？我是否遇到过类似的信息？当时的决策是什么？是否有效？在以往“既往经验”的基础上，医生作出决策，然后观察病人是否对治疗方案响应，并决定是否对诊断结果和治疗方案作出调整。这是一般的工作方式。

每一个医生本质上都是一个数据库，存储不同类型的数据(教科书+指南+临床实践+医学文献)。病人信息是输入数据(input data)，经过数据库的检索&分析(医生的综合判断)，产生输出(最可能正确的诊断和治疗方案)。同时，医生将这个病例纳入自己的大脑数据库，也就完成了一次自我学习(self learning)。自我学习越多，数据库越强大。如图1所示。这又提出了两个问题：1)假设寿命是无限的，即“病例个数”可以无限增长，决策正确率是否达到极限(100%的准确率)？2)现实中寿命是有限的，平均决策准确率，随着年龄增长有无可能下降？即决策准确率和病例数是否一直正相关？这两个问题供大家思考，不必较真。

图1 医生年龄，病例个数和决策准确率之间可能的相关性

几千年来人类社会所有的专家系统(比如医生，艺术家，建筑师等)都是这样的生长模式，看上去很完美，但这个过程有几个问题：

如上文所言，专家系统的寿命有限。一个名医的去世，他拥有的数据和决策系统无法再现，这种损失无法估量。

系统检索时，更偏向治疗成功的案例印象。数据库的自我学习有偏差且不公平。你很少见到治疗失败的病例分享，对吧？

数据库的数据偏差有时无法避免。以感染科为例，如果连续收治的病人抗结核治疗都有效，那新收的病人更容易倾向结核治疗，而可能会忽视肺癌的可能性。另外，感染科医生识别肺癌的平均能力不如胸外科。因为胸外科医生的数据库中，肺癌的数据更多一些。

最后，什么是医生的“综合判断”？这个词很难量化，个人能力(即数据库的质量)当然最重要，但也可能和决策者本身的性格，经历，甚至和直觉，运气，作决策时的情绪，都有关系。而AI的“综合判断”是可描述的算法和模型。

最重要的是，目前的工作方式不完美，整个团队需要观察病人是否对初步的治疗方案响应，以及病情的变化，才有可能知道是否作出了正确的决策，这无疑是一种浪费。问题是，我们能否在一开始就做出准确诊断和最佳治疗方案？有可能。

很幸运，大多数临床需求都可以转换为数学问题。在医疗领域，AI的作用是：在数据驱动的基础上提供： 1)更准确的诊断。2)多个治疗方案选择最可能有效的。3) 制定量化的药物治疗方案。实际上，AI的基本框架和医生的学习过程一致：收集数以百万计背景清晰的病例数据，构建出决策模型。随着数据的增加，数据库和模型持续升级，这将超过任何一个医生的学习能力。你可以把决策模型想象为，一个永远也不会消失的“超级专家会诊系统”：当输入新的病例信息后，将全世界最好的医生召集起来(即理论上，从不犯错的医生)，分别独立地作出决策，最后经投票表决选择票数最高的方案。框架的构建一般包括以下3步。框架如图2所示。

设定目标(模型的目的是疾病诊断还是治疗方案选择)，并制定和量化规则，比如什么才算“治疗效果好”，什么是“治疗效果不好”，并决定收集哪些类型的样本和数据，如临床数据(身高，血压等)，基因组数据(全基因组，转录组，菌群等)，影像学数据等。同时启动试验并收集数据。

用全部数据构建决策模型。这一步需要决定要用哪些AI算法和工具，也可以多尝试几个工具。

用新的数据测试模型的稳定性和准确性。

图2 AI的一般框架

研究者应先提出问题，再去寻找解决问题的需要的数据类型和工具，而不是刚好相反。比如：因为我熟悉很熟悉基因组，所以我想用基因组分析解决临床上诊断或者预后的问题。这种错误逻辑或许可以解释基因组行业目前面临的困境：从2009年高通量测序仪推广以来，实际上并没有给临床医学带来革命性的突破。没有任何工具和数据类型是万能的，但若能掌握扎实的统计学，同时学会AI这个工具，它能带给你的，远远不止是几篇SCI文章而已。

2.AI的学习路径

时间宝贵的研究者和临床医生，从教科书开始学AI并不现实。AI的范围实在太广，不需要掌握所有的知识点，如同医生不可能会看所有的病。但没有必要的前提知识无法学习AI。用自己的体会说明这一点。

读研期间我一直在华大做项目，阅读文献时看到一个统计方法叫PERMANOVA，但花了3周的时间也没有学会，因为手里的项目很多，也没有使用的迫切需要，于是就忽略了。直到我完全理解它的时候(已经是几年后的事情了)，才明白为什么以前浪费了2周的时间，因为那时没有了解PERMANOVA需要掌握的前提知识，比如permutation， anova和多元统计，如图3所示。这些知识树之间的关系非常精妙，就像一个个的零件。ANOVA是简单回归分析的一般应用，ANOVA和简单回归分析构成多元分析的基础，distance除了用于PERMANOVA，还可以用于其他统计学和AI工具，如PCoA，聚类，进化树等，多元分析更是理解AI的基石(AI针对的正是多元分析无法解决的问题)。

图3 PERMANOVA的前提知识

一个简单的PERMANOVA都如此，更何况人工智能是一门系统的课程，我们必须从最基本的统计学和线性代数开始。对于商业级别的应用，还需要学习数据管理，集群计算优化等一系列的知识。

学习新东西从来都不是一件容易事，但学习过程可以很轻松，问题在于学习的方式。教科书(特别是国内的)的最大问题是没有任何真实世界的场景。学习AI的最佳路径是是从一门编程语言学起，编程完全可以替代公式和推导，有助于对统计学概念的理解，更是AI学习的必需。我自己的学习路径是这样的：

先学一门语言（R或者python），做出简洁美丽的图和统计分析，这会增加继续学习的信心，对发表SCI论文也很有用。

用编程来完全理解基本的统计学概念，包括分布，概率，相关分析，回归分析。不需要推公式。

学几个AI工具，从最简单的，不需要太多前提知识的方法学起，比如最小二乘法，最近邻居法，分类树，聚类等。这也有助于增加学习兴趣。

用AI工具解决你自己领域内的问题。比如用全基因组测序数据&细胞图像识别&临床数据，对不同细胞类型的肺癌进行分类，并将结果和病理金标准进行比较。

详细：

http://news.bioon.com/article/6703945.html

（華成旅行最便宜 03-3833-9823)

像机器一样思考：人工智能和临床应用

浏览过的版块