用计算机训练计算机人工智能如何自我学习？-安信8仿真植物

新闻分类

新闻详情

用计算机训练计算机人工智能如何自我学习？

作者：管理员发布于：2023-02-28 10:58:08 文字：【大】【中】【小】

　　人工智能的发展应用离不开数据。比如，训练当前大火的 ChatGPT，就需要大量的数据——

　　基于庞大数据集训练而成的 ChatGPT 获得了前所未有的成功，而 ChatGPT 想要向前迭代，就需要更多的数据进行训练。但真实世界的数据总归是有限的，并且面临着难以获取、质量差、标准不统一等诸多问题。在这样的情况下，计算机模拟技术或算法生成的合成数据受到了愈发广泛的关注。作为真实世界数据的廉价替代品，合成数据正日益被用于创造精准的 AI 模型。

　　顾名思义，合成数据就是通过计算机模拟或人工智能算法合成的数据，这样的数据并不基于现实世界的现象和事件，但由于在数学上或统计学上，合成数据也能够反映真实世界数据的属性，因此，合成数据可以作为真实世界数据的替代品，来训练金洋5娱乐、测试、验证 AI 模型。

　　2022 年以来，Forrester、埃森哲（Accenture）、Gartner、CB Insights 等研究咨询公司都已经将合成数据列为人工智能未来发展的核心要素，认为合成数据对于人工智能的未来而言是必选项和必需品。

　　比如，Forrester 将合成数据和强化学习、Transformer 网络、联邦学习、因果推理视为实现人工智能 2.0 的五项关键技术进展，可以解决人工智能 1.0 所面临的一些限制和挑战，诸如数据、准确性、速度、安全性、可扩展性等。

　　Gartner 预测称，到 2024 年，用于开发人工智能和分析项目的数据 60% 将是生成式合成数据，到 2030 年合成数据将彻底取代真实数据，成为 AI 模型所使用的数据的主要来源。MIT 科技评论将 AI 合成数据列为 2022 年十大突破性技术之一，称其有望解决 AI 领域的数据鸿沟问题。

　　数据对于人工智能发展的意义不言自明——如果说以深度学习为代表的智能算法是人工智能应用和发展的引擎，那么数据就是用于驱动引擎的燃料。而合成数据之所以在今天会受到关注，正是因为目前现实世界的数据已经难以满足人工智能继续迭代，并向前发展的数据需求。

　　要知道，现实世界的数据收集和处理是一种昂贵且缓慢的过程，公司通常无法在短时间内获取大量的数据来训练准确的模型，就算是获取现实世界的数据也要符合隐私规定，然而，除去获取成本高昂以外，特定领域的数据集还受限于用户隐私，极难采集。可以说，现实世界数据的稀缺性已经成为人工智能发展的最大瓶颈——如何高效、廉价并在不侵犯隐私的情况下获取大量数据，成为当前人工智能领域的关键问题之一。

　　合成数据就是这个关键问题的解法。首先，合成数据能够实现数据增强和数据模拟，解决数据匮乏、数据质量等问题，包括通过合成数据来改善基准测试数据的质量等；其次，避免数据隐私问题，利用合成数据训练 AI 模型可以避免用户隐私问题，这对于金融、医疗等领域而言尤其具有意义；第三，合成数据还能最大限度地确保数据多样性，更多反映真实世界，提升 AI 的公平性，以及纠正历史数据中的偏见，消除算法歧视；第四，合成数据能够应对长尾、边缘案例，提高 AI 的准确性、可靠性，因为通过合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景，更好确保 AI 模型的准确性。

　　不仅如此，合成数据还具有低成本的特点。合成数据服务商 AI.Reverie 指出，人工标注一张图片可能需要 6 美元，但人工合成的线美分。总的来说，利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练 AI 模型，进而极大扩展 AI 的应用可能性，将人工智能推向新的发展阶段。

　　2021 年，尼日利亚数据科学公司的研究人员就注意到，旨在训练计算机视觉算法的工程师可以选用大量以西方服装为特色的数据集，但却没有非洲服装的数据集。于是，这个团队通过人工智能算法成功实现了人为生成由非洲时尚服装的图像组成的数据来解决这一不平衡问题。

　　可以说，合成数据真正实现了用计算机训练计算机，这也让机器智能向前更进一步。实际上，人类的学习正是遵循着这样的方式，一方面，我们可以从外部信息来源收集知识和观点，比如，通过阅读一本书。但我们也可以通过思考一个问题，自发产生想法和见解，换言之，我们能够通过内部反思和分析来加深对世界的理解，而不直接依赖于任何新的外部输入。

　　而人工智能通过合成数据来自我训练，就像是人工智能也无需任何新的外部输入，而是通过合成数据来有效地引导它们自己的智能。

　　试想一下，今天的人工智能大模型吸收了世界上存在的大量信息和数据，比如维基百科、书籍、新闻文章等。如果人工智能能够根据这些数据合成新的数据，然后再将这些合成数据进一步训练来改进自己，那人工智能就将不断迭代，且功能愈发强大。换言之，AI 在合成数据构建的虚拟仿真世界中自我学习、进化，这将极大扩展 AI 的应用可能性。

　　实际上，用计算机训练计算机的想法并不新鲜，例如，无人驾驶汽车已经在虚拟街道上进行了许多训练。要知道，由于实际道路交通场景千变万化，因此，让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的，必须借助于合成数据才能更好地训练、开发自动驾驶系统。

　　为此，许多自动驾驶企业都开发了复杂的仿真引擎来虚拟地合成自动驾驶系统训练所需的海量数据，并高效地应对驾驶场景中的长尾问题和边缘案例。比如，腾讯自动驾驶实验室开发的自动驾驶仿真系统 TAD Sim 可以自动生成无需标注的各种交通场景数据，助力自动驾驶系统开发。

　　在安全的、合成的仿真环境中，计算机可以模拟任何人类想象得到的驾驶场景，诸如调节天气状况、添加或移除行人、改变其他车辆的位置等等。可以说，合成数据和仿真技术是自动驾驶的核心支撑技术。实际上，最早涌现的一批合成数据创业公司就瞄准的是自动驾驶汽车市场，帮助自动驾驶企业解决其在自动驾驶系统开发过程中所面临的数据和测试难题。

　　目前，合成数据还在向金融、医疗、零售、工业等诸多产业领域拓展应用，用计算机训练计算机正在成为人工智能发展的必经之路。

　　由于对人工智能未来发展的巨大价值，合成数据也加速成为 AI 领域的一个新产业赛道。

　　一方面，国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软的 Azure 云服务则推出了 airSIM 平台，可以创建高保真的（high fidelity）的 3D 虚拟环境来训练、测试 AI 驱动的自主飞行器，微软还开发了可以生成合成和聚合数据集的开源工具 Synthetic Data Showcase，并创建了合成人脸数据库，和国际移民组织（IOM）合作打击人口贩卖。亚马逊则在多个场景探索合成数据的应用，例如使用合成数据来训练、调试其虚拟助手 Alexa，以避免用户隐私问题；其合成数据技术 Wordforge 工具可以用来创建合成场景（synthetic scenes）。

　　另一方面，合成数据作为 AI 领域的新型产业，相关创新创业方兴未艾，合成数据创业公司不断涌现，合成数据领域的投资并购持续升温。据国外研究者统计，目前全球合成数据创业企业已达 100 家。在过去的 18 个月，公众视野中已知的合成数据公司融资总额达到 3.28 亿美元，比 2020 年高出 2.75 亿美元。

　　看起来，合成数据是对真实数据稀缺性的重要解法，但这并不代表合成数据毫无问题。首先，虽然高质量的合成数据集不仅可以作为真实数据集的补充，更可以作为训练人工智能模型的主要数据来源，但在全面应用合成数据集之前，需要充分研究合成数据集与真实数据集的差异，从而避免应用合成数据集带来的偏差。因此，如何评估合成数据集与真实数据集的差异仍是一个有待解决的问题。

　　其次，合成数据仍存在非自然数据的问题。目前大多合成数据技术是基于统计机器学习方法的，由于经典统计学只关注了数据中蕴含的相关性，而忽视了因果性，因此有可能会生成不合逻辑的数据。比如，合成图像中可能会出现具有异常背景的图像，这类数据被称为非自然数据。非自然数据对智能算法的影响目前仍然未知。刻画影响的边界并提早思考应对办法将会是合成数据能否进入风险敏感领域的关键。

　　最后，合成数据仍然涉及的隐式隐私泄露问题。虽然合成数据并不由某个用户产生，但是目前的合成数据仍然需要借用数据来训练用于合成数据的模型，比如生成对抗网络。由于生成对抗网络结构的复杂度较高，因此在模型训练的过程中，存在记忆原始训练样本分布的可能。已经有最新研究结果表明，可以通过合成的数据反向推断出原始训练样本。所以，数据合成技术存在上述隐式隐私泄露问题，如何更严密地保护隐私仍是有待探究的问题。

　　从数据到合成数据，当人工智能能够合成数据，并使用它来继续自我改变，这可能会使迫在眉睫的数据短缺变得无关紧要。对于人工智能来说，这将代表下一次的飞跃。

您现在的位置：安信8仿真植物 > 新闻动态 > 用计算机训练计算机人工智能如何自我学习？