检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业新一代信息技术人工智能

国外人工智能语料公司调研

供稿人:王方媛供稿时间:2024-03-29 15:48:38关键词:人工智能,语料,澳鹏,知识产权

“没有好的数据,人工智能没有未来”,已成为业界共识,随着人工智能技术的不断发展,AI数据将发挥更加巨大的价值。据《2020年中国AI基础数据服务行业发展报告》调查显示,2019年中国AI基础数据服务行业市场规模达30.9亿元,预计2025年市场规模将突破100亿元,年化增长率为21.8%[1]。本文收集了国外知名的AI数据服务公司,分析了这些企业的基本情况、运营模式和知识产权情况。

1 澳鹏Appen

1.1企业介绍

 澳鹏(Appen)成立于1996年,是一家总部位于悉尼的公司,为人工智能及机器学习提供数据服务。经过20年的持续成长和发展,澳鹏(Appen)在数据语音、文字、图像、视频等领域的数据采集、数据标准化、数据标注、数据翻译和转注等服务达到了全球领先地位,其业务覆盖130多个国家地区、支持180多种语言的各类AI数据层服务,为全球高科技、汽车、消费电子、电子商务、金融服务、医疗健康及科研机构等高效行业提供高质量、安全的数据服务。2022年公开数据显示,澳鹏中国在专注于人工智能数据服务商中营收排名第一[2]

1.2 运营模式

澳鹏提供端到端的人工智能辅助数据标注平台,它集成了各种丰富的、高效的标注工具,可实现各类海量的标注场景。项目交付方面,提供多种复杂类型项目的采标一体化管理、资源管理,提供全球多语言外包、众包100的资源池。

2021519日,澳鹏宣布了一个新的组织结构,包括四个面向客户的业务部门——全球、企业、中国和政府。这些变化反映了Appen从领先的人工智能 (AI) 数据标注服务提供商,到广泛的AI数据标注产品和解决方案提供商的演变,以解锁新市场的增长。

20191014,国际领先的人工智能数据服务提供商澳鹏(Appen)宣布投资200万美金建立的澳鹏(Appen)中国·首个数据服务交付中心暨澳鹏科技(无锡)有限公司正式开业,这标志着澳鹏(Appen)立足中国,布局中国AI数据服务产业进入崭新阶段。中国澳鹏团队的许多成员来自于全世界第一流的IT服务公司,由这样的全球化团队和技术来服务中国的AI企业,无疑可以帮助中国企业快速获得全球AI最佳实践,并为它们的业务出海极致赋能。

    澳鹏中国构建了一支来自于IBM等全球著名咨询公司的服务交付管理团队,拥有丰富的知识管理、SLA(服务水平)管理、质量管理、安全管理等经验,同时兼有对不同行业的深耕经验,使得澳鹏长期为全球高科技、汽车、消费电子、电子商务、金融服务、医疗健康及科研机构等行业提供高质量、高效的、安全的数据服务[3]

澳鹏中国总部位于中国AI之都上海,在无锡、大连、重庆均设有大型交付中心。目前,澳鹏拥有超过1600名全职员工、1000+BPO(商务流程外包)资源、数万名高质量的本土众包人员并持续扩张中。强大的交付团队能应对来自中国AI和互联网公司灵活多变的数据服务需求。

1.3 知识产权

澳鹏中国是知识产权独立自主的中国公司。澳鹏中国非常重视技术研发,在仅有56个人的时候就已组建了自研团队,目前中国团队开发的企业级AI数据标注平台叫做MatrixGo,该平台在中国注册,拥有独立知识产权,与海外完全隔离。目前,每年约有2000个项目运行在MatrixGo上,平台技术在2D3D图像标注领域是中国最领先的,极大增强了中国企业AI项目的规模化扩展能力。

2 ScaleAI

2.1 企业介绍

Scale AI是一家AI数据平台,通过帮助机器学习团队生成高质量的地面数据来加速AI应用程序的开发。其先进的LiDAR,图像,视频和NLP注释API允许OpenAILyftPinterestAirbnb等公司的机器学习团队专注于构建差异化模型和标签数据[4]

Scale AI 2019 年跻身独角兽行列,当前估值 73 亿美金,ARR 接近 3 亿美金。Scale AI 核心业务为数据标注,从自动驾驶场景起家,后切入政府、电商、机器人、大模型等场景,分别对应着过去 AI 行业几次大机会的出现。目前,Scale AI 正非常激进地切入 MLOps LLM 领域,提供各类工具、平台和服务。包括电商场景的图片生成工具 Scale Catalog,大语言模型开发者工具平台 Scale Spellbook,以及合成数据产品 Scale Synthetic 等等。

2.2 运营模式

数据标注(Data Labeling)为 Scale AI 的核心业务。数据标注位于模型开发的上游阶段,该过程需要先识别原始数据,然后为该数据添加一个或多个标签。数据类型包括结构化数据和非结构化数据,后者包括图像、视频、3DLiDAR、雷达等)、文本和音频等。数据标注的核心是质量和效率,对于数据标注的客户公司而言,数据标注并非公司核心业务,外包意愿强。客户标注数据主要通过内部自建团队、众包平台、与第三方数据标注创业公司合作。该赛道玩家除了 Scale AI 之外,还有 DataloopSuperAnnotateLabelboxSnorkelV7Appen 等。传统数据标注的背后往往需要大量的标注员对数据进行人工标注,而 Scale.AI 正试图使用自动化系统完成大部分标记和识别工作并且推出“Scale Rapid”快速数据标注服务,其自动化质量标注工具效率可提升 10 倍。

Scale 的标注工人主要从委内瑞拉、肯尼亚、菲律宾等工资水平相对较低的国家招聘,客户主要为美国 enterprise 企业,商业模式就像全球化套利,毛利较高。

Scale AI的商业模式主要是作为一个数据标签和注释平台,为开发人工智能(AI)和机器学习模型的公司提供服务。他们通过他们的劳动力和尖端技术提供高质量的训练数据,标签和注释各种类型的数据,包括图像,文本和音频。定价方面Scale 官网针对每款产品给出了标准化定价,定价模式为 Consumption-base 的模式。如 Scale lmage 起价为每张图片 2 美分,每条标注 6 美分;Scale Video 起价为每帧视频 13 美分,每条标注 3 美分;Scale Text 起价为每项任务 5 美分,每条标注 3 美分;Scale Document Al 起价为每项任务 2 美分,每条标注 7 美分。除此之外,还有针对 enterprise 的收费方式,即根据具体的企业级项目的数据量及服务进行收费。

Scale 的竞争对手包括:公司内部自建的数据标注团队;谷歌、微软和亚马逊等科技大厂的数据标注服务;数据标注创业公司。

2.3 知识产权

20239 12 美国白宫发布声明称,当日,美国商务部长雷蒙多等政府高官在白宫召集 AI 行业高管,宣布 AdobeCohereIBM、英伟达、PalantirSalesforceScale AI  Stability 八家公司已承诺采取自愿监管措施管理AI 技术开发风险[5],包括在推出前展开安全测试、构建将安全放在首位的系统、为AI 生成内容添加数字水印等。拜登-哈里斯政府自上任以来,将监管人工智能带来的风险、保护美国人权利与安全作为本届政府的一项重要使命,上述八家公司第二批作出自愿监管承诺的企业,第一批是在 2023 7 月,Open AI、微软、GoogleMeta、谷歌、亚马逊、AnthropicInflection 等七家公司作出自愿监管承诺。

 

3 CloudFactory

3.1 企业介绍

CloudFactory是一家总部位于美国北卡罗来纳州的公司,成立于2010年。该公司提供数据标注、数据清洗和数据处理等服务,旨在帮助企业利用人工智能和机器学习技术解决数据相关的挑战[6]

3.2 运营模式

CloudFactory的运营模式通过客户定制化服务、众包工作方式、质量控制与监督、技术支持与平台提供以及社会使命等方面的组合,为客户提供高质量、灵活性强的数据处理解决方案。

CloudFactory与客户合作,根据其需求定制数据处理方案。这包括确定需要处理的数据类型、标注任务的复杂性、标注质量要求等。客户可以根据自身项目的特点和要求选择适合的服务方案。

CloudFactory的运营模式基于众包(Crowdsourcing)的工作方式。公司利用在线平台,将数据处理任务分配给全球的工作者,这些工作者通过互联网参与任务,完成标注、清洗和处理等工作。通过众包模式,CloudFactory能够快速扩展人力资源,并灵活应对不同规模和复杂度的项目需求。

CloudFactory提供专业的技术支持和灵活的在线平台,帮助客户管理项目、上传数据、监控进度和获取结果。平台提供了各种工具和功能,包括项目管理、数据审核、实时通信等,使客户能够方便地与工作团队进行交流和合作。

3.3 知识产权

CloudFactory拥有开发和维护其技术平台所需的知识产权。这包括软件代码、数据库结构、用户界面设计等。这些知识产权通常受到版权法的保护。

在客户项目中,由CloudFactory处理的数据属于客户的知识产权。在合同中,通常会规定数据的所有权和使用方式。CloudFactory会与客户签订保密协议,以确保客户数据的保密性和安全性。

CloudFactory在业务运营中获得关于客户、合作伙伴或自身业务的保密信息。公司会采取措施保护这些信息,如签署保密协议、实施访问控制和加密技术等。

参考文献

[1].2020年中国AI基础数据服务行业发展报告[EB/OL].[2020-04-02]. http://www.360doc.com/content/20/0402/17/2209670_903426422.shtml

[2]. 数据服务门槛再提升,澳鹏Appen(中国)凭何再度领军[EB/OL].[2022-12-22].https://k.sina.cn/article_1747383115_6826f34b020017knq.html

[3]. 澳鹏中国第三年,缘何成为AI训练数据服务行业领头羊?[EB/OL].[2022-11-11].https://k.sina.com.cn/article_1891330474_70bb69aa00100xlxj.html

[4]. ScaleAI [EB/OL].[2024-03-29].https://www.qcc.com/product/f9bd3d94-b1fa-40dd-b9ab-db3aceeb1e48.html

[5]. 美国白宫:英伟达等八家公司自愿承诺管理AI风险,包括展开安全测试、添加数字水印等[EB/OL].[2023-09-12].https://www.jiemian.com/article/10086420.html

[6]. CloudFactory[EB/OL].[2024-03-29].https://www.qcc.com/product/03ec325a-e860-4b33-b042-7764008b0948.html