AI+测试|a16z 领投,让 AI 真正为企业可用,测试平台 Distributional 完...
“
A16Z 的创始人 Marc Andreessen 认为解决 AI 的准确性和安全性问题将是万亿美元级别的市场。对于拥有幻觉且不稳定的 AI,如何评估模型的准确性、可控性与安全性是 AI 真正被投入使用的关键。我们之前曾介绍过的 Patronus AI 和今天要介绍的 Distributional 都深耕“AI 测试”这一看似被忽略的领域。
近期 Distributional 获得了 a16z 领投的 1100 万美元种子轮融资,创始人在 2014 年就进入 AI 评估领域,此次高额的种子轮融资可以体现测试领域的高潜价值和 Distributional 对 AI 评估的深刻经验与洞察。
“
Sense 思考
我们尝试基于文章内容,提出更多发散性的推演和深思,欢迎交流。
严格的测试对实现可靠的 AI 系统至关重要,这也是企业广泛采用 AI 技术最优先考虑的。但现阶段对 AI 系统的测试和验证方案是不完整和临时拼凑的。继承自传统软件行业的确定性测试工具无法应对生成式 AI 的挑战。
AI 测试需要结合产品需求定义测试维度、设计并构建测试集、选择测试方式,通用模型不同,满足具体需求的 AI 产品测试需要对特定领域的 know how 和团队。
本篇正文共 3996 字,仔细阅读约 7 分钟
AI Native 产品分析
Distributional
1. 创立时间:2023 年 9 月
2. 团队情况:
-
联合创始人兼 CEO Scott Clark:创业公司 SigOpt 被 A16Z 投资,2020 年被英特尔收购。之后 Scott Clark 成为英特尔的 AI 副总裁。
-
Distributional 创始团队共 11 人,包括来自彭博、谷歌、英特尔、Meta、SigOpt、Slack、Stripe、Uber 和 Yelp 的 AI、平台和研究工程师。
3. 项目简介:
Distributional 在构建一个现代化的企业 AI 测试和评估平台,使 AI 变得安全、可靠和稳定。帮助 AI 产品团队主动且持续地识别、理解和解决生产中可能对其客户造成伤害的 AI 风险。
人工智能创业公司 Distributional 2023 年 12 月宣布获得了 1100 万美元的种子轮融资。该公司正着手开发一个 AI 测试与评估平台,目标是让企业使用的 AI 系统更加安全、可靠和稳定。
这轮融资由知名投资机构 a16z 领投,其他包括 Operator Stack、Point72 Ventures、SV Angel、Two Sigma、Willowtree Investments 以及许多 AI 行业的领军人物也参与了投资。
01.
AI 测试问题尚未被解决
在 AI 模型日益复杂、难以预测且频繁出现诸如不稳定性和不准确性等问题的背景下,企业迫切需要强有力的测试方案来在部署前识别和解决潜在的风险。然而,目前许多企业还在使用临时拼凑、不完整的测试方法。
测试是当今软件开发的一个关键组成部分;有专门的团队负责开发测试,以确保软件按预期行为运作。传统测试是确定性的,测试人员知道给定输入时软件将产生什么输出。但 AI 软件是非确定性的。
随着 AI 能力变得愈发通用,所涉及的方向愈发广泛,同样的输入可能导致大量潜在的不同输出,很多意想不到的情景也随之出现。应该如何确保这些输出在将软件正式发布之前是准确和可接受的?具体来说,应该如何定义测试维度、如何设计和构建测试集、如何选择测试方式?其对应着越来越复杂的 know how、越来越庞大的工作量和团队。
AI 产品团队目前还没有可靠、标准化和简化的方式解决这个问题,因为现有的测试工具是为传统软件测试构建的。当前的确定性测试工具将观察到的行为与预期行为进行比较,但在应用生成式 AI 的情况下,定义“预期行为”可能不可行。目前测试 AI 软件的团队最多只能依赖模型开发阶段的定性验证或基本摘要统计,而许多公司则忽略了生产前测试的这一缺口,仅在软件上线后通过监控来“测试”。
许多企业面临着部署 AI 产品的压力,但调查显示,测试进展落后,软件的安全性、可信度和稳定性还未达到标准。这些 AI 公司正在匆忙寻找临时解决方案,例如使用 LSAT 这样的标准化测试来检验 LLMs 的质量。美国政府也曾发布了一项行政命令,特别提到需要“制定标准、工具和测试来确保 AI 系统的安全性、可靠性和值得信赖。”多个迹象表明,当前的 AI 测试领域迫切需要一个安全可靠的解决方案。
02.
Distributional 致力于让 AI 测评更简单
Distributional 团队曾跟金融、能源、半导体、咨询、软件和制造业等不同领域公司的 AI 负责人进行了 AI 模型测试方面的交流。发现无论是传统机器学习、深度学习、生成式 AI,还是大型语言模型(LLMs),AI 都是复杂、通常不可预测且不断变化的。幻觉、不稳定性、不准确性、集成问题以及其他众多潜在挑战,使得这些团队都难以深入或大规模地识别、理解和解决 AI 风险。
Distributional 成立的目的是解决这个问题,其使命是让客户在部署基于 AI 的产品前,主动使其变得更安全、可靠和安全。
Distributional 团队在这一领域有近十年的相关经验, CEO Scott Clark 在 Yelp、SigOpt(后被英特尔收购)以及英特尔等公司,亲身经历了 AI 测试方面的种种挑战。
Clark 一直在思考软件测试领域的这种范式转变以及限制广泛 AI 采用的因素。他表示,“为了有效测试 AI,我们需要评估不同结果的分布,而目前市场上并没有专为这一任务设计的软件”。因此 Clark 组建了一支在 Bloomberg、谷歌、英特尔、Meta、SigOpt、Slack、Stripe 和 Uber 等公司测试 AI 系统的经验丰富的 AI 研究人员和平台工程师团队一起创立了 Distributional。
03.
2014 年进入 AI 评估领域
2014 年:AI 评估框架
2014 年,Clark 的创业公司 SigOpt 在为企业规模构建优化和实验平台时,首次遇到了 AI 评估相关的问题。SigOpt 团队开发了高效优化复杂系统的前沿方法,同时一直在探索新技术以改进这些解决方案。
为了验证这些算法解决方案,SigOpt 需要对其进行严格测试。但由于 A/B 测试可能会对真实客户造成伤害,因此无法在生产中进行这些测试。同时这些测试方法与 SigOpt 高效的优化价值主张背道而驰。
SigOpt 团队还考虑了用于基准测试优化方法的标准框架,但找不到用于比较随机方法结果的框架。由于没有可用的解决方案,SigOpt 团队自己建立了一个评估框架,并在 2016 年的 ICML 优化研讨会上进行发表。这成为 SigOpt 未来几年中最强大的竞争优势之一。
同时这个评估过程为 SigOpt 团队提供了关于产品性能的宝贵洞察。有时一些在论文中看起来不错的方法,在经历严格测试后表现却不尽如人意。通过持续的测试,能够在这些技术接触用户之前就淘汰掉表现不佳的技术。尽管如此,SigOpt 团队也认为,如果能使用标准化工具,而不是从头开始构建一套流程会更好。
2016-2020 年:AI 稳健性
在 SigOpt 建立可靠、高效的黑盒系统优化工具之后,它们的产品越来越多地被用于将 AI 作为其核心组成部分的先进公司。这些团队在提升模型性能方面拥有很大的潜力,但如果模型表现不如预期,也会面临重大风险。因此,他们通常将 AI 系统的稳健性视为与性能同等重要的指标。
随着 SigOpt 使这些模型变得更好、更强大,稳健性以及稳健性与最大潜在性能之间的权衡变得更加重要。通常情况下,一个始终能达到接近 90% 性能的解决方案,要比一个在 99% 和 10% 之间剧烈波动的解决方案更可取。但实现稳定性是一个非常困难的问题,因为传统的扰动分析代价高昂。一旦找到最优模型,如何评估其是否脆弱?又该如何确保对最佳性能和相对脆弱性的理解不会随时间而改变?
看到这一需求后,SigOpt 设计了一个专门针对这个问题的解决方案,称为 Constraint Active Search,并在 2021 年的 ICML 上发表了它。这种算法技术使这些团队能够在各种指标上设置约束,并运行实验,主动探索并产生满足这些约束的多种性能模型。
这个功能使他们的用户能够有效、高效地对模型进行可靠优化,以一种以前无法实现的方式针对不同的输入参数组合进行优化。因此,客户对模型的稳健性有了更多的了解,并对部署的模型不会因输入分布的变化而显著退化有了更多的信心。
2022 年:大规模持续 AI 测试
2020 年 10 月,英特尔收购了 SigOpt。在英特尔,Clark 负责超级计算部门的 AI 和 HPC 软件团队,负责将英特尔下一代 GPU 和面向 HPC 的 CPU 推向市场。这个团队有超过一百名工程师,负责运行、评估、调试和演进每一款推向市场的新处理器的 AI 和 HPC 工作负载。鉴于英特尔客户的复杂性,大部分工作涉及复杂的 AI 和物理建模。
工程师团队需要每天组织数千个 AI 测试工作。当团队为这项任务构建完整的软件堆栈时,发现有健全的框架用于传统软件测试,但对于 AI 却没有类似的解决方案。
因此工程师团队花费大量时间和精力手动设计、安装、执行和分析 AI 工作负载的测试。Clark 带领的团队探索了支持这一工作流程的软件选项,但找不到足够强大的解决方案或可靠的测试框架。团队的一名成员称 AI 测试“对于这种规模的公司来说,是每天价值百万美元的问题”。这针对这个问题内部和外部都没有很好的解决方案来应对。
04.
Distributional 的解决方案
不同领域的 AI 负责人都认同软件需要测试,但传统的测试方法和框架不适用于基于 AI 构建的应用程序。
工程师们经常被迫将这些模型适配到传统的测试框架中来测试它们(通常只测试度量阈值和摘要统计数据),在构建模型时应用定性分析(使用可视化或手工构建的示例来获得直觉和信心),或者让他们的用户和客户通过在线监控进行实时测试来发现问题。这使业务面临重大风险、高机会成本的问题。
Distributional 作为一个全新的测试平台,旨在确保 AI 软件的安全性、健壮性和安全性。目前,大多数企业不是依靠手动测试,就是进行被动监控,或者因为对 AI 模型性能的不确定性而选择不部署 AI。基于自 2014 年以来一系列 AI 测试评估框架的技术积累和真实应用场景的经验。Distributional 的平台将提供持续的风险评估,适用于统计模型、机器学习系统、自然语言处理模型等各类 AI 系统。
Distributional 正在与多个合作伙伴合作,开发一个用户友好的测试平台,帮助从事 AI 产品开发的团队在产品上线前轻松理解和管理风险。Distributional 的使命是帮助团队在问题影响客户之前识别并修复这些问题,进而构建一个支持金融、科技或能源等各行业所有 AI 模型类型的平台。
Distributional 计划在 2024 年推出其针对企业的产品线,帮助金融服务、制造业、能源等行业更自信、更方便的应用 AI 技术。
05.
测试框架的完善将促进 AI 的大规模的应用
严格的测试流程对于在传统软件开发中实现可靠的性能至关重要。优秀的软件团队不会在没有通过测试的情况下推进生产。同样的流程也适用于 AI 以及其带来的各类全新场景,但合适的测试工具目前尚不存在。
GenAI 具有变革性潜力,但只有在企业能够确信他们正在构建的系统是值得信赖的,并且不会带来更多弊端情况下,他们才能有效地采用这项技术。通过更好的测试框架,各个领域的团队将更有信心在应用中部署 AI。随着部署的增加,AI 的优势也将逐渐凸显。当看到这种影响扩大时,AI 会被应用于更复杂、更有意义的问题,反过来,这些问题将需要更多的测试来确保其安全、可靠和安全。
Distributional 致力于使企业能够主动评估 AI 模型的性能,在这些模型对最终用户造成负面影响之前,帮助企业发现并解决问题。随着 AI 系统在不同行业中扮演着越来越关键的角色,采用更加严格的测试方法变得尤为重要。
参考材料
https://distributional.com/blog/we-raised-11m-for-better-ai-testing/
https://p72.vc/perspectives/our-investment-in-distributional/
转载请联系公众号后台
欢迎加 入 Sense AI 共创计划
如果你对研究海外最新的 AI 产品感兴趣,并且愿意写出并分享自己的思考和观察,无论你是什么职业(投资人、创业者、产品经理、开发者、学生等等),都欢迎加入 SenseAI 的共创计划。
您可以填写下方的报名问卷,我们会在筛选后邀请您进入我们共创计划社群。SenseAI 的主理人们会在群内分享最新的海外 AI 产品和动态,同时也欢迎每一位参与共创计划的同学分享他们看到有意思的AI动态。
共创计划会以周为单位,每位参与者每周选择一款 AI 产品进行研究并写出相应的文章,每两周会组织一次集体的线上讨论或者线下的深度交流,一块研究前沿的 AI 趋势,特别是对海外 AI 市场动态的实时掌握。每四周调整一次参与成员,维持整个共创计划活跃度和高质量。
欢迎进入「 SenseAI 深度交流群」 ,提供对推文内容讨论、AI 产品探索交流、线下面基和认识新朋友的机会。 为保证交流质量,我们采取问卷申请制,请先扫描下面二维码填写问卷并后台回复【已填写】入群。已填写问卷但未进群的朋友,也请后台回复【已填写】入群。
欢迎关注我们
关注全球 AI 前沿,走进科技创业公司,提供产业多维深思,我们是创业者/产品/投资人,这里是最有 AI-sense 的 SenseAI。