“我们没有护城河,OpenAI 也没有。”
在最近泄露的一份文件中,谷歌内部的一位研究人员表达了这一观点。研究人员认为,在这场激烈的人工智能竞争中,虽然谷歌和OpenAI互相追逐,但真正的赢家可能不是来自这两家,因为第三方正在崛起。
(资料图)
这个力量就是“开源社区”,它是谷歌和OpenAI最大的敌人。
开源社区的顶尖领军人物无疑是Hugging Face。作为AI领域的Github,提供了大量优质的开源模型和工具,将研发成果最大化惠及社区,大幅降低AI的技术门槛,促进“民主化”人工智能的过程。
其创始人之一Clment 也曾公开表示:“在NLP 或者机器学习领域,最坏的情况就是与整个科学界和开源社区竞争。因此,我们不再试图竞争,而是选择开源和科学界。”
Hugging Face成立于2016年,几年内已获得五轮融资。目前其估值已飙升至20亿美元。 Github上star数已超过9.8万,稳居热门资源库之列。
那么这家公司是做什么的呢?它是如何逆袭并成为开源界的“一把手”的?它的发展模式是怎样的?
Hugging Face是一家以自然语言处理(NLP)技术为核心的人工智能初创公司。
它由法国连续创业者Clment Delangue(他创立了笔记平台VideoNot.es、媒体监控平台mention、以及被谷歌收购的移动开发平台Moodstocks等项目)与Thomas Wolf和Julien Chaumond共同创立。成立于2016年,总部设在。位于美国纽约。
其两位创始人Clment Delangue 和Thomas Wolf 是自然语言处理领域的专家。随着他们不断推进Hugging Face 的发展,他们被认为是当代NLP 领域的先驱。
他们创立Hugging Face的初衷是给年轻人带来一款“娱乐型”的“露天聊天机器人”,就像科幻电影《Her》中的AI一样,可以和人聊天气、朋友等、爱情和体育比赛。和其他主题。你无聊的时候可以和它聊天,问它问题,让它生成一些有趣的图片。
正因为如此,“拥抱脸”这个名字来源于一个张开双手的可爱笑脸表情符号。
2017年3月9日,抱脸App在iOS App Store正式上线,并受到广泛关注。它还获得了SV Angel 和NBA 球星杜兰特等投资者的120 万美元天使投资。
为了训练这个聊天机器人的自然语言处理(NLP)能力,Hugging Face 构建了一个资源库来容纳各种机器学习模型和各种类型的数据库,包括帮助训练聊天机器人检测文本消息的情绪、生成连贯的文本信息回应,理解不同的对话主题等。
同时,Hugging Face 团队在GitHub 上开源了该库的免费部分,以便从用户共同创作中获得开发灵感。
到了2018 年,Hugging Face 依然不温不火,并开始在网上免费分享该应用的底层代码。此举立即得到谷歌、微软等业内知名科技公司研究人员的积极响应。他们开始将这些代码用于AI应用,而这个笑脸表情符号也开始被广大AI开发者所熟知。
无独有偶,同年,谷歌推出了基于双向Transformer 的大规模预训练语言模型BERT,迎来了AI 模型的“内卷时代”。
在这样的环境下,Hugging Face开始提供AI模型服务,并迎来了自己的“黄金时代”。
它首先开源了PyTorch-BERT;随后,它整合了之前贡献的NLP领域的预训练模型,发布了Transformers库。
Transformers 库提供了数千个预训练模型,支持100 多种语言的文本分类、信息提取、问答、摘要、翻译和文本生成。借助Transformers 库,开发者可以轻松使用BERT、GPT、XLNet、T5、DistilBERT 等大型NLP 模型完成文本分类、文本摘要、文本生成、信息提取、自动QA 等AI 任务,节省大量时间时间和计算。资源。
简而言之,Transformers库提供了直接可用的模型,无需企业重新开发;因此,许多公司开始使用Transformers库将模型应用到产品开发和工作流程中。
Transformers 库迅速流行起来,并成为GitHub 历史上增长最快的AI 项目。
Hugging Face 在Github 上的星形曲线,图片来自Lux Capital
Hugging Face 创始人之一Clment Delangue 也忍不住感叹,“我们发布东西的时候没有考虑太多,社区的爆发式增长甚至让我们感到惊讶。”
面对如此众多的开发者,Hugging Face 自然而然地建立了自己的社区Hugging Face Hub;同时调整产品策略,不再局限于自然语言处理,而是融合机器学习的不同领域,探索和创造新的用例,开始构建完整的开源产品矩阵。
截至2023年4月,Hugging Face已共享166,894个训练模型和26,900个数据集,涵盖NLP、语音、生物学、时间序列、计算机视觉、强化学习等领域,构建了完整的AI开发生态系统。
这大大降低了相关研究和应用的门槛,使Hugging Face成为AI社区最具影响力的技术供应商。
目前,这些模型已经服务了数万家企业进行资源开发,帮助科研人员和相关从业者更好地构建模型、更好地参与产品和工作流程,其中包括Meta、亚马逊、微软、谷歌等知名企业。人工智能团队。
使用Hugging Face的公司和产品Hugging Face
在资本市场上,“抱脸”也很受欢迎。
2022年5月,团队完成由Lux Capital领投、红杉资本参与的1亿美元C轮融资,估值飙升至20亿美元。
面对资本的追捧,Hugging Face创始人表现得极其冷静,表示拒绝了多次“有意义的收购要约”,不会像GitHub那样出售自己的业务。对于Hugging Face 的未来,其创始人有一些有趣的想法:“我们希望成为第一家以表情符号而非三个字母的股票代码上市的公司。”
因开源而备受关注的Hugging Face也特别注重社区建设。刚刚诞生的抱脸中心如今已成为AI开发者的大本营。
Hugging Face Hub 是探索、实验、协作和构建机器学习技术的中心场所。在这里,任何人都可以共享和探索模型、数据集等,每个人都可以轻松协作构建机器学习模型。 Hugging Face Hub因此被称为“机器学习之家”。
它是Hugging Face坚持“开源”的产物,也是其核心。正如官网宣传语所说:AI社区,共创未来。
Hugging Face开发者页面Hugging Face
Hugging Face创始人曾公开表示,“Hugging Face的目标是通过工具和开发者社区让更多的人使用自然语言处理工具来实现他们的创新目标,让自然语言处理技术更容易使用和访问。”
他还补充道,“包括科技巨头在内的任何一家公司都无法独自‘解决人工智能问题’,而我们实现这一目标的唯一途径就是通过以社区为中心、共享知识和资源的方法。”
因此,该公司致力于“人工智能民主化”,在Hugging Face Hub 上构建最大的开源模型、数据集、演示和指标集合,让每个人都能够利用机器学习来探索、实验、协作和构建技术。 “目标。
目前,Hugging Face Hub 提供了超过120,000 个模型(Models)、20,000 个数据集(Datasets)和50,000 个演示应用程序(Spaces),并且全部开源、公开、免费。
Hugging Face提供的API托管服务Hugging Face
Hugging Face Hub对所有机器学习模型开放,并得到Transformers、Flair、Asteroid、ESPnet、Pyannote等自然语言处理库的支持。其中,核心的自然语言处理库是Transformers库。
Transformers 库支持PyTorch、TensorFlow 和JAX 之间的框架互操作性,这确保了在模型生命周期的每个阶段使用不同框架的灵活性。而且,通过Inference API,用户可以直接使用Hugging Face开发的模型和数据集进行推理和迁移学习。这使得Transformers框架在性能和易用性方面达到了业界领先水平,彻底改变了深度学习。 NLP领域的发展模型。
Hugging Face Hub堪称AI行业的“Github” |抱脸
此外,平台还提供了一些实用工具,如模型版本控制、测试集成、共享协作等,帮助开发者更好地管理和共享模型和数据集。
因此,在Hugging Face Hub 中,任何开发者或工程团队都可以通过界面使用数千种模型的推理API,轻松下载和训练最先进的预训练模型,以不同模式完成常见任务,例如自然语言处理、计算机视觉、音频、多模态等可在几分钟内构建您自己的机器学习驱动的应用程序,从而消除从头开始训练模型所需的大量时间和资源。
在此基础上,他们还可以在自己的账户下创建自己的仓库,用于存储和共享训练好的模型、数据集和脚本,同时与强大的社区共享和交流,轻松协作进行ML 工作流程。
简而言之,Hugging Face Hub 为研究人员提供了一个平台,可以展示他们想要分享的模型、测试其他人的模型、深入研究这些模型的内部架构,共同推动ML 的发展。此前,人工智能对于前端开发人员来说似乎遥不可及。毕竟,到目前为止,只有少数代码生成的人工智能系统免费向公众开放。
为此,Hugging Face决定在社区提供开源模型和API来改变这一现状,并主动承担AI研究走向应用过程中复杂而细致的工作,让任何AI从业者都能轻松使用这些研究。模型和资源。用Hugging Face自己的话说,他们所做的就是在AI研究和应用之间架起一座桥梁。
除了提供便利之外,Hugging Face还积极采取措施加强Hub的安全性,确保用户的代码、模型和数据安全,让用户放心使用。
例如,模型库配备模型卡,告知用户每个模型的局限性和偏差,从而促进这些模型的负责任的使用和开发;数据集中设置访问控制功能,允许组织和个人控制权限和隐私。考虑创建一个私有数据集并能够自己处理其他用户的访问请求。
另外值得一提的是,为了进一步“民主化”自然语言处理技术,Hugging Face Hub上还开设了NLP课程——Hugging Face课程。
本课程向您介绍如何使用Hugging Face 生态系统(Hugging Face Transformers、Hugging Face Datasets、Hugging Face Tokenizers 和Hugging Face Accelerate)中的数据库进行自然语言处理(NLP)。它是完全免费的,甚至没有广告。
Hugging Face将自然语言处理课程直接免费上传到视频网站YouTube
简而言之,Hugging Face Hub 就像机器学习的GitHub。一个社区开发者驱动的平台,提供丰富的资源,使开发者能够在机器学习(ML) 模型、数据集和ML 应用程序上不断探索、创新和协作,共享知识和资源以加速和推进AI 开发。
那么问题来了,一家提供“平台社区”的“开源”公司如何赚钱?
首先,“开源”是一个正确的决定。
凭借开源项目Transformers,Hugging Face积累了巨大影响力,聚集了大量开发者,构建了庞大的社区Hugging Face Hub,赢得了客户和投资者的信任,这使得其商业转型水到渠成。
对此,红杉资本合伙人帕特·格雷迪也表示,“他们优先考虑应用而不是变现。我认为这是正确的做法。他们已经看到了Transformer 模型如何能够在NLP 之外应用,并看到它成为GitHub Opportunities,这不仅仅是针对NLP,而是会延伸到机器学习的各个领域。”
而且,纵观过去十年市场上初创公司的创业史,我们会发现开源模式的商业可行性得到了强有力的证实。 MongoDB、Elastic、Confluence等都是营收增长最快的开源公司。他们都实现了盈利并在市场中生存下来。
Hugging Face 的创始人之一克莱门特也坚信,“初创公司可以通过比构建专有工具创造更多价值的方式为开放社区赋能。”次”。
他甚至公开表示,“鉴于开源机器学习的价值及其主流地位,它的使用是递延收入。机器学习将成为技术发展的默认方式,Hugging Face 将成为这方面的第一平台,并创造数十亿美元的收入。”
因此,Hugging Face选择了“开源带动业务”的商业发展道路,并将于2021年开始提供付费功能。
拥抱脸的收费项目拥抱脸
目前,抱脸的盈利业务主要分为三类:
付费会员:提供更好的服务和社区体验来获得收入;数据托管:根据不同的参数要求提供不同的小时费托管服务; AI解决方案服务:目前主打产品,专注于NLP、Vision等方向,为客户提供定制化解决方案,获取技术服务费。
值得一提的是,从2020年开始,Hugging Face开始为企业定制自然语言模型,针对不同开发者类型推出了包括AutoTrain、Inference API Infinity、Private Hub、Expert Support等个性化产品。
目前,已有1000多家企业成为Hugging Face的付费客户,主要是大型企业,包括英特尔、高通、辉瑞、彭博社和eBay等。
2021年,Hugging Face实现营收1000万美元。从数据来看,Hugging Face的“开源驱动业务”策略是成功的。
这也印证了Hugging Face首席执行官Clment的说法,“公司不需要从所创造的价值中获得100%的分红,只需要变现1%的价值,但即使是1%也足以让你成为一名一家高市值的公司。”
总之,Hugging Face通过开源社区积累了影响力,随后逐渐扩展到SaaS产品和企业服务领域。这种渐进式的转型让Hugging Face在开源与商业化之间取得了良好的平衡,这也是其成功的重要原因。这一发展策略也让Hugging Face在AI领域独树一帜,为其他AI初创公司树立了榜样。
然而,开源生态系统也有其自身的弱点,因为商业开发很可能会损害自然生长的社区环境。对此,Hugging Face的做法是加强技术的控制,维护自己的开源生态;同时,将在科学研究领域进行更深入的挖掘。
“机器学习技术仍处于早期发展阶段,开源社区潜力巨大。未来5到10年,我们一定会看到更多开源机器学习公司的崛起。”
Hugging Face 首席执行官克莱门特(Clment) 说道。