迁移学习为机器学习误差估计提供了新的视角

machine learning Credit:CC0 Public Domain Omar madd ouri是德克萨斯A&M大学电气和计算机工程系的博士生，他正在与Byung-Jun Yoon教授博士和Robert M. Kennedy讲座教授Edward Dougherty博士合作，使用迁移学习原则评估机器学习模型。布鲁克海文国家实验室的弗朗西斯“弗兰克”亚历山大博士和德克萨斯A& M大学电子和计算机工程系的萧宁·Q·伊恩博士也参与了该项目。在数据驱动的机器学习中，建立模型是为了对任何给定的数据集中将要出现的内容进行预测和估计。机器学习中的一个重要领域是分类，它允许通过算法评估数据集，然后将其分类或分解为类别或种类。当提供的数据集非常小时，不仅要基于该数据构建分类模型，而且要评估该模型的性能以确保其准确性，这都是非常具有挑战性的。这就是迁移学习发挥作用的地方。

“在迁移学习中，我们试图从另一个领域转移知识或带来数据，看看我们是否可以增强我们在感兴趣的领域或目标领域正在做的任务，”Maddouri解释说。

目标领域是构建模型和评估其性能的地方。源领域是一个独立的领域，它仍然与目标领域相关，知识从该领域转移，以使目标领域内的分析更容易。

Maddouri的项目利用联合先验密度对源域和目标域之间的相关性进行建模，并提供一种贝叶斯方法来应用迁移学习原理，以提供模型的总体误差估计。误差估计器将提供对se机器学习模型在分类手头数据集时有多准确的估计。

这意味着，在观察任何数据之前，团队使用他们对目标和源域中的模型参数的初始推断创建一个模型，然后随着更多关于数据集的证据或信息变得可用，以增强的准确性更新该模型。

这种迁移学习的技术在以前的工作中已经被用于建立模型；然而，以前没有人使用这种迁移学习技术来提出新的误差估计器来评估这些模型的性能。为了有效利用，使用先进的统计方法实现了所设计的估计器，使得能够快速筛选源数据集，这将迁移学习过程的计算复杂度提高了10到20倍。

这种技术有助于作为学术界未来研究的基准。此外，它可以帮助识别或分类不同的医疗问题，否则将非常困难。例如，Maddouri利用这种技术，利用最初通过侵入性脑活检获得的脑组织样本的转录组数据，对精神分裂症患者进行分类。由于可以分析这种疾病的大脑区域的性质和位置，收集的数据非常有限。然而，使用严格的特征选择程序，包括差异基因表达分析和假设有效性的统计测试，研究小组从其他文献的独立研究报告中发现的与所需大脑t问题高度相关的额外大脑区域中确定了三个基因的转录谱。

这一知识使他们能够利用迁移学习技术来利用从第二大脑区域(源域)收集的样本来帮助分析，并显著提高原始大脑区域(目标域)内诊断的准确性。在缺少来自目标领域的信息的情况下，从源领域收集的数据可以是探索性的，允许研究团队提高他们的结论的质量。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/14282.html