要说这一轮AI浪潮的最大赢家显然是NVIDIA。自2022年底OpenAI发布ChatGPT以来,英伟达市值增长了近五倍,甚至超越苹果成为全球市值最高的公司。眼看着NVIDIA如今能够让OpenAI、Meta、xAI等多家AI厂商排队买单,越来越多的企业想成为这场AI淘金热中的“卖水者”。
不过,由于NVIDIA的GPU和CUDA生态护城河太深,即使是老对手AMD也难以逾越。因此,直接抢NVIDIA的业务无疑是困难的。因此,更多厂商将目光投向了AI产业链的其他环节。以共享出行闻名的 Uber 近日宣布,将向外界开放原本仅供内部使用的 Scaled Solotions 手动数据标注服务。
同时,消息人士透露,Uber 本月已与美国、加拿大、印度、波兰、尼加拉瓜等国的独立承包商签署合同,将利用承包商提供来自 Scaled Solotions 的本地付费人工数据标注任务。显然,Uber正准备充当“总承包商”,在全球组织一支数字零工团队,专门从事数据标注。
事实上,数据标注就是对图片、文本、视频等各种数据集进行标注,这使得它成为二进制计算机可以理解和识别的任务。此前,这个任务主要是在2007年由程序员完成的。然而,使用金桂的程序员进行数据标注无异于浪费资源,以至于基于大数据的深度学习在2007年之前就已经过时了。
数据标注的革命发生在2007年,当时计算机科学家李飞飞创建了ImageNet数据集,并通过亚马逊众包平台雇佣了来自167个国家的总计5万人,对10亿张图像进行筛选、排序和打字。标签。 ImageNet的出现也标志着AI行业向数据驱动范式的转变,深度学习也因此成为AI行业的一门突出科学。
ImageNet的成功在于它解放了程序员,让任何完成基础教育的人都可以承担数字标注的任务。其实数据标注并不复杂。例如,给定一张图片,要求你标记图片中的行人、车辆、建筑物等元素,或者给出一个声音,要求你判断说话者的语气。这样的工作就基本完成了。任何一个完成九年义务教育的人都可以轻松做到。
正是因为门槛低,从某种意义上来说,数字标注从业者的工作就是面对电脑屏幕,按照AI开发者给出的规则给数据打上各种标注,与工人一起进行装配线。作品没有什么区别,就是一个非常典型的“网络搬砖”。尽管“网络实体”看起来与人工智能技术不相容,但它确实非常有利可图。
就在今年夏天,专注于为AI厂商提供数据标注服务的Scale AI完成了由硅谷顶级基金Accel领投的F轮融资,估值达138亿美元。该公司一长串的投资者名单更是明星云集,包括英伟达、亚马逊、Meta、AMD、高通、思科和英特尔。要知道,与OpenAI齐名的Anthropic如今估值仅为180亿美元,所以为AI厂商“做家务”的Scale AI其实前景远比外界想象的要好。
数据标注非常赚钱的原因也很简单,因为在目前的技术条件下,它不是第二产业,而是第三产业。虽然市场上确实有Doccano、SuperAnnotate等自动化工具,但这些自动化工具无法处理大规模AI模型训练所需的高质量、高精度数据,因此只能依靠人工。那么问题来了,既然Scale AI走在了前面,为什么只有Uber跟风呢?为什么其他主要互联网公司不采取行动?
虽然数据标注确实没有技术门槛,但只要你想做,从OpenAI到Meta再到Google这些大公司很容易建立数据标注业务线。但正是因为数据标注没有门槛,所以它是一个劳动密集型行业。真正的难点是数据的获取和分发,即从哪里获取数据,然后将数据标注工作分发给合适的人。
作为一家专注于共享出行和外卖的大型互联网公司,Uber 掌握的驾驶数据和地理位置数据相当有价值。否则,自动驾驶公司Aurora Innovation和LBS AR游戏开发商Niantic就不会与Uber合作。 ,使用 Scaled Solotions 的服务。同时,Uber还是一家跨国巨头。早在2015年他们就已覆盖58个国家和地区,如今几乎遍布全球。
共享出行和外卖行业的特殊性也意味着Uber需要依赖全球供应商来获取司机和骑手资源。在这个过程中,不可避免地会与各个供应商保持联系。因此,在世界各地本地蛇的帮助下,Uber可以对数据进行注释,以实现更高的成本效益。
那么有了资源和人脉,Uber的数据标注服务怎么会不成功呢?
本文来自微信公众号“三一生活”,作者:三一君,36氪经授权发布。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273491.html