导读:本文作者David Kelnar是MMC Ventures的投资总监和研究主管。MMC Ventures是英国最活跃的风投公司之一,主要关注技术驱动型行业领域,尤其是金融与商业服务、商业软件、数字媒体以及电子商务。
这篇文章介绍了MMC Ventures对于概念炒得火热的机器学习公司的投资框架,详述了其投资这些公司时考虑的17种关键因素。
这些因素可以分为价值创造、价值实现和防御力三大部分,“价值创造”具体包括价值释放、颠覆性、适用性等;“价值实现”则包括管理团队的商业能力、可量化的投资回报率、部署的可扩展性等;“防御力”包括与巨头之间的距离、领域复杂度、创造网络效应的能力等。
以下内容编译自David Kelnar发表在Medium上的原文:
人工智能——具体来讲,就是机器学习——是一种强大的“使能技术”,代表了软件能力的全面转变。但作为投资者,又该如何评估那些把机器学习作为其核心价值主张的软件公司呢?我会在本文介绍我们的机器学习投资框架。
我们的框架捕捉了早期机器学习公司的17个成功因素。由于可观的回报来自一家公司在价值创造、有效价值实现和防御力三方面的潜力,所以我们将这些成功因素归入这三个大类。如果使用另外一种归类方法,这17项因素则可以归入战略、技术、数据、人才、执行和资本6项能力。在与机器学习公司沟通时,我们会参考这套框架,但并不拘泥于此。除此之外,它还能为我们提供一套蓝本,以便我们为自己投资的机器学习公司提供支持。
MMC Ventures对应用型机器学习公司的投资框架
应用型机器学习公司的成功因素
我们的框架着眼于“应用型”机器学习公司——这些创业公司占比达到85%,它们针对具体的领域或职能发展由机器学习引导的解决方案。而基础、通用型机器学习技术领域的开发者成功因素则各不相同。
除了常见的创业公司评估因素外,我们在评估机器学习公司时还要考虑额外因素,另外还有一些需要额外强调的传统因素。这些额外因素(包括机器学习是否适合解决某个问题,以及通过数据获得的网络效应的适用范围)能够反映机器学习的特性。
我们着重强调的传统观点(例如投资回报率的可量化性和管理团队的商业能力),则反映了我们与90家英国机器学习创业公司会面时观察到的机器学习市场动态。没有一家公司能在所有领域表现优异,而成功因素的相对重要性也有所差异。
机器学习公司创造巨大价值的潜力有多大?我们考虑了6种价值创造的驱动力。其中3个(价值释放、颠覆程度和替代方案的可行性)与商业系统的影响有关,另外3个(机器学习的适用性、优于人类表现的路径和合适的数据集)与技术可行性有关。
通过预测成功或流程自动化,一家公司能在多大程度上借助为客户创造营收或节约成本来释放一套商业系统的价值?我们通过以下方面评估一家提供商为客户创造营收的能力:
提升转化率、产量、生产能力、价格,或其他能够直接推动营收增长的指标;
通过改善客户体验来降低用户流失率——利用更强的个性化、更好的客户服务、更低的客户摩擦或更强的品牌忠诚度;
创造新的创收机会——寻找新客户、增加向上销售或交叉销售机会,或者促成新的市场机会。
我们还通过以下方面考虑一家提供商为买家降低成本的能力:
通过提升预测效率、流程效率和流程自动化来降低过度开支、过度采购或核心资源需求;
通过改进合规性等方式来降低经济漏损。
除了短期影响外,我们还考虑一家机器学习公司的颠覆程度(吸引新型用户使用一项服务)和优化程度(为现有用户简化流程)。
以人工智能个人助手为例。虽然人工智能助手相对于人类而言只能承担一小部分任务,但他们却可以为商务用户自动安排会议。根据PayScale的数据,人类助手的平均年薪达到2.5万英镑,因此很多中小企业请不起个人助手。人工智能助手则适用于各种规模的企业,可以通过扩大目标市场来创造价值。
很少有企业具备颠覆性,而企业不需要具有颠覆性也可以拥有吸引力。但能够颠覆现状的企业或许可以通过规模创造超额产出。
当替代方案的成本和可行性受限时,创造价值的空间就更大。在一些有吸引力的案例中,由于人工智能可以实现之前无法实现的事情,因此没有实际的替代方案。在多数情况下,我们都能借助对人或其他资源的充分投资找到替代方案。当一家企业的替代方案成本极高、十分稀少、无法获取或扩展时,价值创造的空间就显得尤为重要。
劳动力通常是数字化的直接替代方案,也是最贵的替代方案。多数英国机器学习创业公司关注的4大行业中,金融、IT和公用事业3个行业的年薪最高。我们认为专业服务领域有更多机会。
按行业类别分类的雇员年薪
机器学习与企业当前面对的挑战匹配性如何?机器学习很适合解决费力、复杂高深莫测的问题:
费力的问题指的是人类可以胜任,而且可以将解决方案编写成电脑程序的问题,但这么做却不切实际。
复杂的问题指的是人类可以胜任,但要将这种能力编写成电脑程序却很困难的问题。物体识别是个复杂的问题。人们很擅长识别汽车,但却无法针对这种任务编写有效的规则集。
高深莫测的问题指的是人类无法胜任的任务。在这些领域,人类无法通过标记或组织数据的方法来支撑一个预测引擎。借助神经网络,深度学习非常善于处理这些高深莫测的问题,因为神经网络可以确定需要优化的参数。
机器学习不适合解决没有边界的问题和因果推论问题。
机器学习算法不能超脱其所获取的数据之外来吸收知识。Anastassia Fedyk曾经用1990年代的一个例子生动地强调过这种困难:当时,匹兹堡大学的研究人员评估了一些用于预测肺炎死亡率的机器学习算法。“这些算法建议医生把同时患有哮喘的肺炎患者送回家,认为他们的肺炎死亡率较低。结果发现,提供给算法的数据集没有考虑哮喘患者都已经马上被送往重症监护室,他们之所以病情好转,完全是因为院方的额外关注。”只有在解决独立的问题时,机器学习才能起到效果。
第二,机器学习很不适合解决以因果推论为主的问题。机器学习可以描述数据中的各项元素之间的相关性,但却无法确定它们之间的因果关系。如果未来与过去并不相似,而过去的模式无法反映新的现实,机器学习就不擅长预测这些问题。
机器学习未必要100%有效才能发挥价值。从实践角度来看,机器学习引导的解决方案只需要提供与人类近似(最好优于人类)的表现,便可实现自动化并扩大生产规模。因此,在评估机器学习支持的技术的具体表现时,应该从中长期去评估——最好能优于人类的表现——以便解锁价值。
人类的表现水平可能低于我们的想象。根据美国国家高速公路交通安全管理局的统计,美国有94%的车祸都源自人为错误。无人驾驶汽车不需要100%安全便可彰显价值:只需要达到与人类相似或高于人类的水平即可,而美国司机目前的水平是每1亿英里行驶里程死亡1.25人。(当然,在实际情况下,买家对某项技术的信任是其普及的进一步条件——在某些领域,要让人们接受这些技术,还需要达到更高的标准,其中也包括无人驾驶汽车。这一点将在下文讨论。)
要让机器学习创造价值,就需要通过合适的数据对其进行训练。我们会评估一家公司能在多大程度上获得合适的数据。我们会以机器学习的两个数据处理阶段为背景来衡量数据的适用性:
选择:数据可用性;是否存在数据缺口和复制品;数据标记的质量,数据是否存在偏见;
处理:数据碎片化;数据清理需求;数据采样需求;数据转换、分解和聚合需求。
我们还会衡量数据集能否保持价值。如果能用历史数据测试和改进一个算法的各种新版本,数据集就能保持价值。但情况并非总是如此。如果一家聊天机器人公司改进了算法,它提供给用户的提示就将与以往有所不同。如果聊天机器人的提示发生变化,用户回应的内容很可能也会改变。
由于庞大的用户回复数据集已经与算法解耦,甚至毫不相关,该公司的历史数据用处也就非常有限。你可以将此与防欺诈公司进行对比。可以用一套算法来测试历史客户活动数据集,以便了解算法的精确度是否有所提升。
有吸引力的公司具备创造价值的潜力。但价值能否实现呢?根据我们的经验,有5项因素对机器学习引导的公司十分重要。第一项(管理层团队的商业能力)与人才有关。后面三项目(可以量化的投资回报率、买家预备状态和良性监管)与商业系统接受程度有关。最后一项(部署的可扩展性)则与市场进入战略有关。
很多机器学习公司的创始人都拥有一流的技术实力。但商业嗅觉在企业的长期成功中发挥着重要作用,重要性甚至超过技术实力。多数B2B软件公司迟早都要组建直销团队——只有创始人主动去寻找业务,才能真正扩大规模。
拥有商业头脑的创始人愿意做大企业,也愿意拥抱市场,同时也具备组建强大销售团队的能力。投资者可以提供更帮助——我的同事Jon Coker和Simon Menashy在帮助创始人组建和扩大SaaS销售团队方面拥有不俗的经验——但如果创始人的商业化动力有限,他们也无能为力。
2. 可量化的投资回报率
如果一个方案拥有可以量化的投资回报率,往往就更容易在B2B市场上被人接受,销售周期也会缩短,客户教育成本也会降低。在销售和营销职能中,销售转化率的提升可以轻易评估。在金融领域,交易利润的增加也很明确。在英国,多数创业者都把自己的目标瞄向了可以演示投资回报率的领域:
服务于营销和广告职能的机器学习创业公司多于其他领域——约占英国总数的20%;
创业活动最为集中的是金融领域(在早期机器学习公司中约占8%)。
买家预备状态通常可以以漏斗的形式来评估:认识、了解、喜好、确信、购买。对机器学习公司来说:
我们把“准备就绪”作为漏斗中的一个阶段加入其中。准备就绪评估的是买家是否拥有训练和部署算法所需的合适的、可以获取的数据集,以及是否获得了组织的支持,以便用人工智能引导的解决方案加强或颠覆现有的工作流程。
在“喜爱”阶段中,我们考虑的是信任和控制问题。信任是相信解决方案在人类只进行有限干涉的情况下的表现。接受度的标准多种多样;乘坐无人驾驶汽车旅行,以及用机器学习诊断疾病,都需要极高的信任。控制描述的是,即便在系统信任很高的情况下,人类介入某个系统或流程的意愿。价值释放、采纳和可扩展性可能局限于特定环境,这些环境都需要让人类保持较高的控制。
机器学习往往具有“黑箱”特性。Nuance的Nils Lenke说:“内部机制并不非常明确——你让神经网络自我组织,它真的会自己组织自己:它未必会告诉你具体过程。”
因此,我们会考虑一家机器学习提供商是否在透明度上面临监管挑战。是否需要理解或解释一套机器学习解决方案提供的预测或决策?
在英国,达成抵押合同需要受到《金融服务和市场法案》(Financial Services and Markets Act)的监管。《企业抵押贷款行为规则手册》(The Mortgage Conduct of Business Rulebook)第11.6.2条声明,除非能够证明客户能够担负起合同,否则不能达成交易。倘若贷方采用“黑箱”深度学习算法来判断用户的担负力,能否将其应用于实践?
监管风险会被夸大。媒体广泛报道了欧盟新制定的《一般性数据保护规定》(General Data Protection Regulation),这项规定将在2018年成为整个欧盟的法律。它创造了“解释权”,也就是用户可以要求相关企业就算法针对他们做出的决策给予解释。
实际情况没有那么明确——实际上更有可能意味着的“通知权”,也就是说,企业只会阐述算法决策的一般流程及其使用的数据集。然而,决策方向的确更加重视透明度和潜在的偏见。美国白宫科技政策办公室2016年发布了《人工智能的未来筹备报告》,该报告总结道,“研究人员必须学习如何设计这些系统,以便它们的行动和决策对人类透明,并且可以轻易被人类解释。”
在销售、营销和商业情报等特定的B2B职能中,可解释性可能算不上是一项挑战。但在其他领域——包括人力资源、合规性和欺诈——却有可能颇具挑战,这主要是从法律和务实角度来考虑。
类似地,某些领域(金融服务)的企业比其他企业更需要遵守规则。在评估机器学习公司时,我们希望了解企业现在和未来有可能面临的监管阻力,以及他们的应对方案。
机器学习引导的软件公司的扩张速度可能因为难于部署而受到限制。
数据集成要求可能很广泛。合并、集成和净化相互隔离的客户数据集,会限制实现价值的时间。
软件公司对资源的需求可能很大,限制了获取新客户和提升利润率的潜力。我们沟通过的很多机器学习公司都有三分之一的团队成员参与部署。其中一家对我们说,由于每个客户都有人员要求,所以“即便我们有更多订单也处理不过来”。
虽然深入的客户关系可以提升客户粘性,带来更多向上销售机会,但能够将部署要求降到最低、能够自动完成数据收集、数据协调和部署过程的机器学习公司,可以更快地做大规模。
随着竞争者的涌入,这些机器学习驱动的公司能够在多大程度上守护住自己创造的价值呢?在防御力上,我们主要看重六点:与行业巨头间的距离、领域复杂度和相关专业度、通过数据创造网络效应的能力、专有算法、吸引高质量人才的能力以及运用资本武器的能力。
在领域内,谷歌、亚马逊、IBM和微软(以下用GAIM简称)都提供了基于云的机器学习服务,这些服务包括广义上的计算机视觉、语音及文本处理,而且其能力和规模、范围还会继续扩张。最近,谷歌在计算机视觉方面的技术能力已经扩展到了视频范畴,并且已经开放了其能够提供视频实体识别、搜索和编目能力的视频智能API。在拥有Deep Mind强力支持的情况下,谷歌先进的机器学习技术最终将能够覆盖到一个非常宽广的服务范围。
GAIM高表现、低成本的通用型机器学习服务将会压倒一切——除了一部分在某些特定领域最有经验、做得最好的竞争者。
如果一家公司提供的机器学习服务远离GAIM的核心竞争区域,那么它们也将拥有更强的“防御力”。判断这一距离的标准,一是领域的垂直度,二是广义计算机视觉与计算机语言领域之外的技术发展情况——在实际情况中,这意味着其他公司提供的应该是不同于GAIM通用、基础型解决方案的特定功能、特定垂直领域型解决方案。目前,四巨头在垂直领域的野心还主要限于医疗健康以及交通运输,尽管它们未来同样可能试水其他与自身业务相关的领域。
从手工业到法律业、农业,早期的机器学习公司有机会向前推进乃至重塑这些行业的形态。GAIM目前对它们并不%感兴趣,而要与其他人竞争,它们也缺少足够的数据优势与领域专长。
领域和行业上的距离能将同GAIM之间的竞争最小化,而机器学习公司在其所属领域内的动力则能够在商业竞争中为自己提供进一步的保护。
复杂的领域,包括那些需要大量的行业专业知识、要求精细化管理或者是面临极其复杂技术挑战的领域。选择复杂的领域也意味着业务上要扛起更重的负担。路途艰险,但一旦真的上了岸,这些公司就能占据更为有利的防御位置。最吸引人的生意,总是那些处于有一定复杂度的领域,同时又有能力把这些困难搞定的。
能够获取个人的、领域专属性数据集的公司将会拥有更多的训练材料来对自己的机器学习算法进行提升——而这通常会让竞争者付出代价。网络效应就是如此发挥作用:你能拴住的客户越多,公司的产品就越好,公司的产品越好,就越能拴住更多的用户,获得越多的专有数据。一家在金融服务行业提供欺诈检测的公司将能够从自己每一名新客户身上获取新的、非公共性的数据。
显而易见,一家机器学习公司为了训练自己的算法只需要使用公司的私人数据,而不需要拥有它们。如今,有了通往数据的渠道,那些保有数据的大佬们以前在数据上的优势已经在很大程度上被抵消了。
网络效果的潜力,还可能会造成一种二阶效果——早期的机器学习公司可能会将数据的获取渠道看得比短期利益更加重要。考虑到早期客户数据的价值,机器学习公司可能会投放免费软件,或是在一定程度上缩减在早期用户身上的收益。
现在,通过TensorFlow这样的开源软件库能够获取优秀算法的同时,越来越多的机器学习公司正在通过开发更强的、独有的算法来创造智慧财富。一种专有的算法(事实上通常是一组多种算法的集合)可能提供的是:更高的准确度、更丰富的功能、更快速的表现、更高的强度、更好的可解释性,部分算法不需要通过太大体量数据的训练就能得出结果。
创新是一点一点实现的,需要经历一个从“找窍门”到求新的过程。“找窍门”要做的事情是思考如何运用技巧对已有算法进行提升,求新则是在开发解决问题的全新途径,并能够成功地对其进行展开。
在包括自然语言处理在内的许多领域,缺少数据已经不再成为一种瓶颈。在其他领域,围绕算法进行的创新也能让其在少量数据的基础上发挥作用。因此,除了获取数据的渠道,机器学习公司同样对人才有着强烈的需求。
目前市场上的机器学习人才十分稀少,且非常昂贵。根据Procorre的一份研究报告,在英国,在招的通用数据科学家的职位数量在2016前半年同比增长了32%,而这种需求的增长已经超过了供应。而在英国所有的技术专家岗位之中,机器学习专家的薪水是最高的。
英国各类技术专家平均年薪
考虑到激烈的人才竞争,一家优秀的公司必须展示出自己在可接受的成本下吸引和留住高水平机器学习人才的能力。
创业公司基本上是在为GAIM创造人才,它们无法同GAIM的规模、稳固性以及能提供的薪水相竞争——当然,它们也不需要这么做。实事求是的机器学习公司会对自己的雇员强调的优势是:直接影响产品的机会、更强的自主性、更多发布成果的自由、知识和技术上的挑战,如果公司够硬,还会有更多长期性的物质奖酬。
考虑到如下因素,机器学习公司必须具备更强的资本能力:在富于技术挑战的领域内开发产品所需的更长时间、对于B2B公司而言更长的销售周期、招募机器学习专家所需的更高成本,以及广泛部署资源的需求——这些因素都将提升对人员的要求,限制公司扩张的速度。
优秀的机器学习公司会将足量的资本用作武器,以增强自身在竞争中的优势。
VIA:公众号:量子位 WeChat: QbitAI 编译自 Medium