前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hugging Face 在开放 LLM 堆栈中的定位是什么?

Hugging Face 在开放 LLM 堆栈中的定位是什么?

作者头像
云云众生s
发布于 2024-03-27 12:41:47
发布于 2024-03-27 12:41:47
2070
举报
文章被收录于专栏:云云众生s云云众生s

Hugging Face 在开放 LLM 堆栈中的定位是什么?

翻译自 How Hugging Face Positions Itself in the Open LLM Stack

Hugging Face 在生成式人工智能开发者生态系统中扮演什么角色?我们来看一下该公司精明的开源品牌定位。译者在前不久确实成了 Hugging Face 的粉丝,也有幸参加了一次 Hugging Face 联合 Google 举办的一次开发者活动。

Hugging Face 在生成式人工智能开发者生态系统中扮演着什么角色?我们来看一下该公司精明的开源品牌定位。

忘记 LAMP 堆栈,现在一切都是关于 LLM 堆栈。在过去的一年中,诸如 LangChainAnyscale 的 Aviary 等工具已经推出,帮助开发者基于或连接到大型语言模型(LLMs)构建应用程序。尽管现在还处于初期阶段,Hugging Face 已经迅速成为这个新兴堆栈的关键组成部分。它已经成为选择 LLMs 和其他机器学习模型和数据集的首选存储库。

在最近在瑞典 PyCon 的演讲中, Hugging Face 首席传道者 Julien Simon 解释了 Hugging Face 在生成式人工智能开发者生态系统中的角色,以及其近期的计划。

Hugging Face 如何成为开源冠军?

具有讽刺意味的是, Hugging Face 是一家商业公司,其存储库实际上并不是一个开源平台。但是,它最接近的 “Web 2.0” 等价物 GitHub(当然是由 Microsoft 拥有)也不是开源平台。在这两种情况下,重要的是托管的文件是开源的。

在其作为开放平台的品牌定位中, Hugging Face 最初是开源 transformer 库的提供者。

“所以 Hugging Face 是一家成立于 2016 年的公司,我们开始在 2018 年左右构建 transformer 的开源库,” Julien Simon 在他在瑞典 PyCon 的主题演讲中说道。“结果发现,我们是发展最快的开源项目之一。”

那么为什么 Hugging Face 会如此迅速地变得如此受欢迎呢?Simon 列举了几个因素,包括处理早期神经网络的困难和运行它们所需的昂贵的 GPU 。但是他说,最大的问题是缺乏“专家工具”。

“所以,如果你想从神经网络和深度学习模型中获得你所期望的准确性,你需要深入研究 PyTorch 代码、 TensorFlow 代码[...],你需要有计算机科学、统计学和机器学习的背景,而不是每个人都有这个背景,对吧。”

Hugging Face 试图做的,他继续说,是使 AI 开发“更快、更简单、更高效”。他将这一努力比作敏捷方法在软件工程项目管理中取代瀑布模型的过程。

他称之为(当然是)深度学习 2.0 的这个新过程的关键是使用 transformers ,即 OpenAI 的 GPT 和几乎所有后来的模型都是基于该技术构建的。

“最重要的是,我们不再需要使用一系列复杂的深度学习架构,而是越来越多地使用 transformers 模型,”他说。

同样重要的是,开发者工具要比上述的“专家工具”更简单。正如 Simon 所说,“如果你能写几行 Python 代码,你就可以开始了。”

在 2023 年,没有 Marc Andreessen 在 2011 年著名的“软件正在吞噬世界”这句话,就不完整了。在 Hugging Face 的世界中,这句话变成了“ transformers 正在吞噬深度学习”。

Hugging Face Hub

除了其 transformer 库外,Hugging Face 还以其 “Hub” 而闻名,这是一个平台,“拥有超过 12 万个模型、 2 万个数据集和 5 万个演示应用程序(Spaces),全部都是开源和公开可用的。”在他的演讲中, Simon 称其为“机器学习的 GitHub ”。他还表示,Hub 拥有超过 10 万个“活跃用户”,每天下载量超过 100 万次。

回到敏捷方法的比较上,Simon 随后提供了开发者在 Hugging Face 上可能遵循的流程图。

“所以你可以从 Hub 上的现有数据集和预训练模型开始。然后,你可以直接使用它们——[...]在 Transformers 库中编写几行代码,然后在你的数据上测试这些模型。如果它们效果不错,如果你获得了所需的准确性,那就完成了[...],你可以称自己为机器学习工程师。”

这只是开发者可以做的一小部分。他提到,你可能希望对自己的数据进行微调,或者使用 Optimum 进行硬件加速。

他补充说,Hugging Face 与 Amazon(SageMaker) 和 Azure 都有集成,因此开发者也可以使用这些工具。目前还没有与 Google 的集成。

开放和闭源的混合

在本文的开头,我有点轻率。新的 LLM 堆栈与上世纪 90 年代末和本世纪初的 LAMP 堆栈并不直接可比——首先,在 LLM 堆栈中没有操作系统组件。但是,有一套工具,包括出色的开源版本,开发者在使用 LLMs 时开始青睐。例如,对于向量数据库,既有商业版(例如 Pinecone ),也有开源版本(例如 Chroma )可供选择

Hugging Face 是开源产品和典型的 SaaS 商业产品的混合体。在 2022 年,它发布了一个名为 BLOOM 的 LLM ,并在今年发布了一个名为 HuggingChatChatGPT 竞品。在 SaaS 方面,它的许多产品之一是 Inference Endpoints ,这是一个“完全托管的基础设施”,用于部署模型,起价为每小时 0.06 美元。考虑到商业设置和风险投资,有可能(甚至很有可能)有一家大型科技公司收购 Hugging Face ,就像 Microsoft 收购 GitHub 一样。但目前,开发者没有什么可以抱怨的。

Simon 在最近接受英特尔采访时表示:“我告诉客户,如果他们相信 AI 具有变革性,它可能比云计算的变革性还要大,你怎么能不拥有它呢?你不希望别人掌控你的未来。你希望自己掌控自己的未来。”

最终,这是一个聪明的定位,与 OpenAI 领导的专有 LLM 阵营截然相反。此外,在人工智能时代, Hugging Face 将自己称为“机器学习的 GitHub ”无疑吸引了开发者们的注意。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
Redis三种集群模式详解
redis 的复制分为两部分操作 同步(SYNC)和 命令传播(command propagate)
用户7353950
2022/05/11
6.5K0
Redis三种集群模式详解
谈谈Redis的几种经典集群模式
Redis集群是一种通过将多个Redis节点连接在一起以实现高可用性、数据分片和负载均衡的技术。它允许Redis在不同节点上同时提供服务,提高整体性能和可靠性。在Redis中提供集群方案总共有三种:主从复制、哨兵模式、Redis分片集群。这些都是目前主流经典的集群模式,redis做集群的好处:
一个风轻云淡
2023/11/27
1.2K0
Redis学习 - 复制以及三种部署模式
单机的redis通常情况是无法满足项目需求的,一般都建议使用集群部署的方式进行数据的多机备份和部署,这样既可以保证数据安全,同时在redis宕机的时候,复制也可以对于数据进行快速的修复。
阿东
2021/08/16
1K0
Redis学习 - 复制以及三种部署模式
redis主从|哨兵|集群模式
可以用info replication查看主从情况  例子:  1主2从  1哨兵,可以用命令起也可以用配置文件里  可以使用双哨兵,更安全,  redis-server --port 6379  redis-server --port 6380 --slaveof 192.168.0.167 6379  redis-server --port 6381 --slaveof 192.168.0.167 6379 redis-sentinel sentinel.conf  哨兵配置文件      sentinel.conf          sentinel monitor mymaster 192.168.0.167 6379 1  其中mymaster表示要监控的主数据库的名字,可以自己定义一个。这个名字必须仅由大小写字母、数字和“.-_”这 3 个字符组成。后两个参数表示主数据库的地址和端口号,这里我们要监控的是主数据库6379。 注意:     1、使用时不能用127.0.0.1,需要用真实IP,不然java程序通过哨兵会连到java程序所在的机器(127.0.0.1 )     2、配置哨兵监控一个系统时,只需要配置其监控主数据库即可,哨兵会自动发现所有复制该主数据库的从数据库 这样哨兵就能监控主6379和从6380、6381,一旦6379挂掉,哨兵就会在2个从中选择一个作为主,根据优先级选,如果一样就选个id小的,当6379再起来就作为从存在。 主从切换过程: (1)      slave leader升级为master  (2)      其他slave修改为新master的slave  (3)      客户端修改连接  (4)      老的master如果重启成功,变为新master的slave 哨兵监控1主2从,停掉主,哨兵会选出1个从作为主,变成1主1从。然而当我把原来的主再起来,它不会作为从,只是个独立的节点。 如果在新的主刚被选出来时,我把原来的主起来,它就能成为新主的从节点。  如果在新的主选出来过一会再起原来的主,就不能成为新主的从节点  或者在老的主起来后,重启哨兵也能把它变成从,哨兵配置文件里有,哨兵会执行“+convert-to-slave” 这很奇怪,我也没弄明白是怎么回事。
yaphetsfang
2020/07/30
7120
redis主从|哨兵|集群模式
一文搞懂 Redis 的三种集群方案
在开发测试环境中,我们一般搭建Redis的单实例来应对开发测试需求,但是在生产环境,如果对可用性、可靠性要求较高,则需要引入Redis的集群方案。虽然现在各大云平台有提供缓存服务可以直接使用,但了解一下其背后的实现与原理总还是有些必要(比如面试), 本文就一起来学习一下Redis的几种集群方案。
iMike
2020/11/24
11.1K0
一文搞懂 Redis 的三种集群方案
redis如何实现高可用【主从复制、哨兵机制】
保证redis高可用机制需要redis主从复制、redis持久化机制、哨兵机制、keepalived等的支持。
Java架构师必看
2021/05/14
6710
redis如何实现高可用【主从复制、哨兵机制】
Redis系列:Redis主从、哨兵、集群介绍
主从复制模式就是,部署多台 Redis 节点,其中只有一台节点是主节点(Master),其他的节点都是从节点(Slave),也叫备份节点(Replica)。只有 Master 节点提供数据的事务性操作(增删改),Slave 节点只提供读操作。所有 Slave 节点的数据都是从 Master 节点同步过来的
栗筝i
2022/12/01
5K0
Redis系列:Redis主从、哨兵、集群介绍
redis一主一从哨兵模式_kafka主从复制
Redis是内存数据库,如果不见内存中的数据库状态保存到磁盘,那么一旦服务器进程退出,服务器中的数据库状态也会消失。所以Redis提供了持久化功能
全栈程序员站长
2022/09/21
6080
redis一主一从哨兵模式_kafka主从复制
Redis源码阅读(五)主从复制与哨兵机制
Redis 单节点存在单点故障问题,为了解决单点问题,一般都需要对 Redis 配置从节点,然后使用哨兵来监听主节点的存活状态,如果主节点挂掉,从节点能继续提供缓存功能。
星沉
2022/01/28
6380
Redis 主从复制、哨兵模式、集群
持久化是最简单的高可用方法(有时甚至不被归为高可用的手段),主要作用是数据备份,即将数据存储在硬盘,保证数据不会因进程退出而丢失。
杰哥的IT之旅
2021/07/13
5410
Redis 主从复制、哨兵模式、集群
redis集群的三种模式
为了分载Master的读操作压力,Slave服务器可以为客户端提供只读操作的服务,写服务仍然必须由Master来完成
summerking
2022/10/27
5240
Redis集群模式
* 一个master可以拥有多个slave,但是一个slave只能对应一个master
俊才
2022/03/07
6411
Redis集群模式
Redis 主从复制与哨兵
Redis 可以使用从属服务器来实现读写分离提高吞吐量或在主服务器故障时接替主服务器以提高可用性。
星哥玩云
2022/08/18
1800
redis主从复制和集群的区别_redis主从复制和redis集群的区别
1、redis的复制功能是支持多个数据库之间的数据同步。一类是主数据库(master)一类是从数据库(slave),主数据库可以进行读写操作,当发生写操作的时候自动将数据同步到从数据库,而从数据库一般是只读的,并接收主数据库同步过来的数据,一个主数据库可以有多个从数据库,而一个从数据库只能有一个主数据库。
全栈程序员站长
2022/09/22
1.1K0
redis主从复制和集群的区别_redis主从复制和redis集群的区别
Redis 6 新手入门基础篇
redis是基于内存的,如果不想办法将数据保存在硬盘上,一旦redis重启(退出/故障),内存的数据将会全部丢失。
猫头虎
2024/04/08
1680
Redis 6 新手入门基础篇
redis学习(二十二)
通过持久化功能,Redis保证了即使在服务器重启的情况下也不会丢失(或少量丢失)数据,因为持久化会把内存中数据保存到硬盘上,重启会从硬盘上加载数据。 但是由于数据是存储在一台服务器上的,如果这台服务器出现硬盘故障等问题,也会导致数据丢失。
崔笑颜
2020/09/27
4090
Redis原理—3.复制、哨兵和集群
命令传播操作用于在主服务器的数据库状态被修改,导致主从服务器的数据库状态出现不一致时,让主从服务器的数据库重新回到一致状态。
东阳马生架构
2025/02/24
2050
Redis的三种集群方式
redis有三种集群方式:主从复制,哨兵模式(Sentinel)和集群(Redis Cluster)。
王先森sec
2023/04/24
4.6K0
Redis的三种集群方式
Redis技术知识总结之五——Redis集群模式
Redis 集群模式有三种:主从模式(Redis 2.8 版本之前)、哨兵模式(Redis 3.0 之前)、集群模式(Redis 3.0 之后)。
剑影啸清寒
2020/07/09
6880
【架构师修炼之路】Redis 哨兵机制 ( Sentinel )
哨兵(Sentinel)主要是为了解决在主从复制架构中出现宕机的情况,主要分为两种情况:
一个会写诗的程序员
2019/11/12
1.1K0
相关推荐
Redis三种集群模式详解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档