合成数据:机器学习的未来

​译者 | 布加迪

审校 | 孙淑娟

数据可谓是机器学习模型的命脉。但是当这种宝贵资源的访问受到限制时会发生什么?正如许多项目和公司开始展现的那样,这时候合成数据就算不是一种出色的选择,也是一种可行的选择。

什么是合成数据?

合成数据是人工生成的信息,不是通过直接测量获得。“假”数据本质上不是新的概念或革命性的概念。它实际上是为缺少正常运行所需的可用或必要信息的模型生成测试或训练数据的一种方法。

过去,缺少数据导致了使用随机生成的一组数据点的便捷方法。尽管这对于教学和测试用途可能已经足够了,但随机数据不是您想要拿来训练任何类型的预测模型的数据。这就是合成数据概念的不同之处,它很可靠。

合成数据本质上是一种独特的概念,即我们可以巧妙地生成随机化数据。因此,这种方法可以应用于更复杂的用例,而不仅仅是测试。

如何生成合成数据?

虽然生成合成数据的方式与随机数据没什么不同——只是通过更复杂的输入集,但合成数据确实有不同的目的,因此有独特的要求。

合成方法基于并仅限于预先作为输入而馈入的某些标准。实际上,它不是随机的。它基于一组具有特定分布和标准的样本数据,这些标准决定了数据点的可能范围、分布和频次。大致说来,目的是复制真实数据以填充更大的数据集,然后该数据集将足够庞大,以便训练机器学习模型。

在探索用于提炼合成数据的深度学习方法时,这种方法变得特别令人关注。算法可以相互竞争,目的是在生成和识别合成数据的能力方面相互超越。实际上,这里的目的是搞一场人工军备竞赛,以生成超现实的数据。

为什么需要合成数据?

如果我们不能收集推进文明所需的宝贵资源,就会找到一种创造宝贵资源的方法。这个原则现在同样适用于机器学习和人工智能的数据领域。

在训练算法时,拥有非常大的数据样本量至关重要,否则算法识别的模式有可能对于实际应用来说过于简单。这实际上非常合乎逻辑。正如人类智能往往采取最容易的途径来解决问题,训练机器学习和人工智能时也经常发生同样的情况。

比如说,不妨将这运用于对象识别算法,该算法可以从一组猫图像中准确识别狗。如果数据量太少,AI就有可能依赖不是它试图识别的对象的基本特征的模式。在这种情况下,AI可能仍然有效,但是遇到不遵循最初识别的模式的数据时,就会失效。

合成数据如何用于训练AI?

那么,解决办法是什么?我们画了很多略有不同的动物,迫使网络找到图像的底层结构,而不仅仅是某些像素的位置。但不是手工绘制一百万条狗,最好构建一个系统,专门用于绘制狗,可用于训练分类算法——这实际上是我们在提供合成数据以便训练机器学习时所做的事情。

然而,这种方法存在明显的缺陷。仅仅凭空生成数据代表不了真实世界,因此会导致算法在遇到真实数据时很可能无法运行。解决方案是收集数据子集,分析和识别其中的趋势和范围,然后使用这些数据生成大量随机数据,这些数据很可能代表我们自行收集所有数据后数据的样子。

这也是合成数据的价值所在。我们再也不必无休止地收集数据,然后在使用之前需要清理和处理这些数据。

合成数据为何能解决日益受到关注的数据隐私问题?

全世界目前正在经历一场非常剧烈的转变,尤其是在欧盟:隐私和所生成的数据越来越受到保护。在机器学习和AI领域,加强数据保护是老大难问题。受限制的数据常常正是训练算法为最终用户执行和提供价值所需要的数据,尤其是对于B2C解决方案而言。

个人决定使用解决方案并因此批准使用他们的数据时,隐私问题通常会得到解决。这里的问题是,在您拥有提供足够价值的解决方案、因而愿意交出个人数据之前,很难让用户向您提供其个人数据。因此,供应商常常会陷入先有鸡还是先有蛋的困境。

合成数据就是解决方案,公司可以通过早期采用者获得数据子集。之后,它们可以使用这些信息作为基础,以便生成足够的数据用于训练机器学习和AI。这种方法可以大大减少对私有数据的费时又费钱的需求,仍可以为实际用户开发算法。

对于医疗保健、银行和法律等某些行业而言,合成数据提供了一种更容易访问以前无法获得的大量数据的方法,消除了新的和更先进的算法通常面临的制约因素。

合成数据能否取代真实数据?

真实数据的问题在于它不是为了训练机器学习和AI算法而生成的,它只是我们周围发生的事件的副产品。如前所述,这显然限制了收集数据的可用性和易用性,还限制了数据的参数和可能破坏结果的缺陷(异常值)的可能性。这就是为什么可以定制和控制的合成数据在训练模型时更高效。

然而,尽管非常适用于训练场景,但合成数据将不可避免地始终依赖至少一小部分真实数据用于自身的创建。所以合成数据永远不会取代它所依赖的初始数据。更现实地说,它将大幅减少算法训练所需的真实数据量,这个过程需要比测试多出一大截的数据——通常80%的数据用于训练,另外20%的数据用于测试。

最后,如果处理得当,合成数据提供了一种更快捷、更有效的方式来获取我们需要的数据,成本比从现实世界获取数据的成本更低,同时减少了烦人的数据隐私问题。

原文标题:​​Synthetic data: The future of machine learning​​​,作者:Christian Lawaetz Halvorsen​

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
标签:
上一篇2025-08-22

相关推荐

  • 莱特帀手机钱包-莱特币手机钱包

    【莱特帀手机钱包】——您的虚拟货币安全助手随着数字货币的兴起,莱特帀作为一种备受关注的加密货币,越来越受到投资者的青睐,为了方便用户安全、便捷地管理莱特帀资

    2025-08-22 14:54:49
    2019
  • ttm数字货币币钱包-ttt数字货币

    TTM数字货币币钱包——您的虚拟货币钱包助手随着数字货币的普及,越来越多的人开始关注并投资数字货币,数字货币的安全存储问题成为了投资者们面临的一大挑战,为了解

    2025-08-22 14:54:49
    2013
  • 货币钱包转账违法吗

    虚拟货币钱包助手:揭秘钱包转账的合法性与风险尊敬的用户,您好!作为虚拟货币钱包助手,今天我们来探讨一下关于虚拟货币钱包转账的合法性与风险问题,什么是虚拟货币钱包

    2025-08-22 14:54:49
    2005
  • 欧意交易所app最新下载安装_欧意OK交易平台App下载教程

    大家好,今天来跟大家分享一下如何下载安装欧意交易所的官方App,也就是欧意OK交易平台App,这个App可以帮助用户在手机上轻松进行数字资产的交易和管理,下面是详细的下

    2025-08-22 14:54:49
    2004
  • 派币今天价值多少钱(派币今日价值报告)

    派币今天价值多少钱(派币今日价值报告)如果你是一名投资者,特别是加密货币投资者,那么你可能会对派币的表现感兴趣。究竟,在今天的市场上,你的派币价值是多少呢?让我们

    2025-08-22 14:54:49
    2003
  • usdt钱包官方下载(高级版本V6.4.24)_USDT钱包是什么?

    USDT钱包是一款基于区块链技术的数字货币钱包,主要应用于泰达币(USDT)的存储、转账和交易,泰达币作为一种稳定币,其价值与美元挂钩,1 USDT兑换1美元,因此在数字货币市场

    2025-08-22 14:54:49
    2003
  • 虚拟币前十名的各币价格

    在数字货币的世界里,各种虚拟币的价格波动总是牵动着投资者的心,下面,我将为您详细介绍当前市值排名前十的虚拟币及其价格情况,帮助您更好地了解这个市场,我们需要明确

    2025-08-22 14:54:49
    2003
  • 鱼池sc钱包-鱼池钱包模式

    【鱼池SC钱包】——您的虚拟货币守护神随着区块链技术的不断发展,虚拟货币已经成为越来越多人的投资选择,为了方便用户安全、便捷地管理自己的虚拟货币资产,各种虚拟

    2025-08-22 14:54:49
    2003