设计工具
应用程序

PC上的AI:为什么不呢?

普拉萨德Alluri | 2024年1月

沙巴体育安卓版下载人工智能的——展会上超过50%的报道都与人工智能有关.

\r\n

人工智能由大型语言模型(llm)提供支持。, 使用人类积累的大量未标记文本开发的模型. 自然语言查询返回类似人类的响应是建立在具有数十亿个参数的神经网络上的,在某些情况下,多个网络连接在一起生成内容. 一些最流行的llm示例是ChatGPT和dll - e, 哪一种可以根据用户输入产生逼真的、有创意的文本和图像. 这些llm令人印象深刻,但它们也需要大量的计算能力和数据来运行. 这就是为什么它们中的大多数托管在云上, 他们在哪里可以访问所需的大量硬件基础设施和网络带宽.

\r\n

然而,云并不是人工智能的唯一应用领域. 将一些人工智能处理转移到边缘有很多原因,例如.e.,即用户端的设备,可能是有益的. 例如, 边缘AI可以减少延迟, 提高隐私, 节省网络成本, 并启用离线功能. 想象一下,如果你可以用你的电脑生成高质量的内容, 编辑照片和视频, 转录的演讲, 过滤噪音, 识别人脸, 和更多的, 不依赖于云. 那不是很棒吗?
\r\n 

\r\n

为什么是PC?
\r\n 

\r\n

当然,pc并不是唯一可以从边缘人工智能中受益的设备. 智能手机, 平板电脑, smartwatches, 和其他设备也可以利用人工智能来增强它们的功能和性能. 但PC有一些独特的优势,使其成为边缘人工智能的合适平台. 第一个, 个人电脑有大屏幕, 哪个可以显示更多的信息,提供更好的用户体验. 其次,个人电脑的电池容量大,可以支持更长时间、更密集的人工智能任务. 第三,个人电脑拥有强大的计算能力,可以处理更复杂、要求更高的人工智能模型.

\r\n

芯片制造商和软件开发商并没有忽视这些优势. 英特尔等公司, AMD, Qualcomm, 联发科, 而英伟达则在其PC cpu和芯片组中嵌入了越来越强大的神经处理引擎和/或集成图形, 可以提供数十TOPS(每秒数万亿次操作)的人工智能性能. 微软还表示,Windows 11操作系统将于今年发布,并对cpu中的这些嵌入式AI引擎进行了优化. 考虑到微软正在大力推广Copilot,这应该不足为奇, 这是一项利用人工智能帮助用户编写代码的功能, 调试错误, 并提出改进建议. 其中一些参与者还与isv合作,以实现人工智能优化的应用程序——增强视频会议体验, 照片编辑功能, 语音到文本的转换, 背景环境和噪声抑制, 还有面部识别等等. 这些正在开发的应用程序是否会给任何人留下深刻印象,或者杀手级应用程序是否还没有出现,这仍然是一个猜测. 但关键问题依然存在. 如何在PC上高效运行AI模型? 和…
\r\n 

\r\n

这对PC的硬件性能意味着什么?
\r\n 

\r\n

在PC上运行AI模型的主要挑战之一是模型大小. 人工智能模型, 尤其是llm, 可以有数十亿甚至数万亿个参数吗, 需要大量的内存和存储来存储和加载. 例如, 我们的内部实验表明,一个700亿个参数的Llama2模型具有4位精度, 最先进的自然语言生成法学硕士, 加载和推理需要大约42GB的内存, 输出速度为1.4牌/秒. 这是典型PC上无法使用的大量内存. 从本质上讲,这说明了问题所在,并为未来指明了方向. 将会有特定功能的模型,在保持精度的同时减小尺寸. 很可能会出现分歧——大型700亿类型的模型可以与具有大内存和存储的高级系统一起使用,并且可以运行微调的应用程序,如聊天完成和针对对话用例进行优化. 此外,本地设备上的个人助理可能还需要一个大参数模型. 小于10B的参数模型可用于主流设备, 可以想象,占用更小的增量内存来承载模型(~2GB),并且可以用于语言任务等应用程序, 包括文本补全, 完成列表, 像分类这样的任务.

\r\n

模型大小显然对内存有影响——至少对PC内存的大小有影响. 带宽和能源效率同样重要. 随着PC(特别是移动设备)从DDR过渡到LPDDR,它在这两个方面都有所帮助. 例如, 与DDR5相比,LPDDR5X在活动使用期间消耗的功率减少44-54%,在自刷新期间消耗的功率减少86% 和LPDDR5带宽比较6.4Gb/s与DDR5的4.8 gb / s. 所有这一切都表明,如果人工智能能够迅速渗透到个人电脑领域,就能更快地过渡到LPDDR5. 有研究和开发的努力,以提高能源效率,将一些处理转移到存储器. 这可能需要很长时间,如果可能的话. 业界需要集中使用一组通用的原语来卸载到内存中,这决定了需要开发的软件堆栈. 一组给定的原语可能并不适合所有应用程序. 因此,让我们说,目前在PC内存中的处理有更多的问题比答案.

\r\n

更大的问题是,人工智能模型的最佳点在哪里? 如果模型尺寸保持相对较大, 是否有一种方法可以减少对内存的依赖,并将部分模型推入存储中? 如果发生这种情况,则需要通过增加存储带宽来适应模型旋转. 这可能会增加第5代PCIe存储在主流PC中的扩散,或者可能加速第6代PCIe存储的引入. 在苹果公司最近发表的一篇沙巴体育安卓版下载同一主题的论文中1, Alizadeh等人的“flash中的LLM:有限内存下的高效大型语言模型推理”提出了一种在超过可用DRAM容量的设备上运行大型语言模型(LLM)的方法. 作者建议将模型参数存储在闪存中,并根据需要将其带到DRAM中. 他们还提出了优化数据传输容量和提高读取吞吐量的方法,以显着提高推理速度. 本文评估各种flash加载策略的主要指标是延迟, 分为三个不同的组件:从闪存加载的I/O成本, 用新加载的数据管理内存的开销, 以及推理操作的计算成本. 总之, 本文通过将模型参数存储在闪存上,并将其按需输入到DRAM中,为有效运行超过DRAM可用容量的llm提供了解决方案.

\r\n

人工智能能力将不断发展. 目前嵌入式NPU集成到CPU和分立gpu是一个开始. 来自Kinara的AI加速卡, Memryx, 和Hailo是在PC上卸载AI工作负载的替代实现. 模型可能发展的另一种方式是功能特定的模型,它更小,并且针对特定的功能进行了优化. 这些模型需要根据需要从存储到内存进行轮换,但对存储的影响与运行大型模型类似.

\r\n

分立NPU的一些优点是:

\r\n
    \r\n
  • 它们可以以比CPU和GPU更低的功耗和发热量处理复杂的AI模型和任务.
  • \r\n
  • 它们可以为图像识别提供更快、更准确的人工智能性能, 生成的人工智能, 聊天机器人, 以及其他应用.
  • \r\n
  • 它们可以补充现有的CPU和GPU功能,并增强用户的整体人工智能体验.
  • \r\n
\r\n

联想, 在其ThinkCentre Neo Ultra台式机上, 将于2024年6月发射, 声称这些卡比目前的CPU和GPU解决方案提供更节能和更强大的人工智能处理.2

\r\n

单独的TOPS作为一个价值指标可能会产生误导. 最后,重要的是单位时间内推断的数量、准确性和能源效率. 所以对于生成式AI, 它可以是每秒的令牌数量或在不到几秒的时间内完成稳定的扩散. 以行业可接受的方式衡量这些指标需要开发基准. 举个例子:我在CES上参观了CPU供应商的所有展位,分别展示了NPU播放器. 每个演示都声称自己的实现在这方面或那方面具有优势.

\r\n

人们对将AI引入PC领域充满热情. PC原始设备制造商认为这刺激了PC的更新,并增加了更高价值内容在PC中的份额. 英特尔正在鼓吹到2025年实现1亿台个人电脑,这几乎是整个个人电脑总容量的30%. 无论采用率如何,作为消费者,2024年都有值得期待的事情.

\r\n"}}' id="text-f52e879750">

人工智能将如何改变个人电脑的格局?它对内存和存储意味着什么
 

人工智能无处不在. 如果没有听到或看到人工智能的行动,你无法度过一天. 从智能助手到自动驾驶汽车,人工智能正在改变我们与世界互动的方式. 但是个人电脑呢? 人工智能能让你的电脑更智能、更快、更个性化吗? 在这个博客中, 我们将探讨人工智能如何改变个人电脑的格局,以及它对内存和存储的意义. 在第24届消费电子展上,所有的话题都是沙巴体育安卓版下载人工智能的——展会上超过50%的报道都与人工智能有关.

人工智能由大型语言模型(llm)提供支持。, 使用人类积累的大量未标记文本开发的模型. 自然语言查询返回类似人类的响应是建立在具有数十亿个参数的神经网络上的,在某些情况下,多个网络连接在一起生成内容. 一些最流行的llm示例是ChatGPT和dll - e, 哪一种可以根据用户输入产生逼真的、有创意的文本和图像. 这些llm令人印象深刻,但它们也需要大量的计算能力和数据来运行. 这就是为什么它们中的大多数托管在云上, 他们在哪里可以访问所需的大量硬件基础设施和网络带宽.

然而,云并不是人工智能的唯一应用领域. 将一些人工智能处理转移到边缘有很多原因,例如.e.,即用户端的设备,可能是有益的. 例如, 边缘AI可以减少延迟, 提高隐私, 节省网络成本, 并启用离线功能. 想象一下,如果你可以用你的电脑生成高质量的内容, 编辑照片和视频, 转录的演讲, 过滤噪音, 识别人脸, 和更多的, 不依赖于云. 那不是很棒吗?
 

为什么是PC?
 

当然,pc并不是唯一可以从边缘人工智能中受益的设备. 智能手机, 平板电脑, smartwatches, 和其他设备也可以利用人工智能来增强它们的功能和性能. 但PC有一些独特的优势,使其成为边缘人工智能的合适平台. 第一个, 个人电脑有大屏幕, 哪个可以显示更多的信息,提供更好的用户体验. 其次,个人电脑的电池容量大,可以支持更长时间、更密集的人工智能任务. 第三,个人电脑拥有强大的计算能力,可以处理更复杂、要求更高的人工智能模型.

芯片制造商和软件开发商并没有忽视这些优势. 英特尔等公司, AMD, Qualcomm, 联发科, 而英伟达则在其PC cpu和芯片组中嵌入了越来越强大的神经处理引擎和/或集成图形, 可以提供数十TOPS(每秒数万亿次操作)的人工智能性能. 微软还表示,Windows 11操作系统将于今年发布,并对cpu中的这些嵌入式AI引擎进行了优化. 考虑到微软正在大力推广Copilot,这应该不足为奇, 这是一项利用人工智能帮助用户编写代码的功能, 调试错误, 并提出改进建议. 其中一些参与者还与isv合作,以实现人工智能优化的应用程序——增强视频会议体验, 照片编辑功能, 语音到文本的转换, 背景环境和噪声抑制, 还有面部识别等等. 这些正在开发的应用程序是否会给任何人留下深刻印象,或者杀手级应用程序是否还没有出现,这仍然是一个猜测. 但关键问题依然存在. 如何在PC上高效运行AI模型? 和…
 

这对PC的硬件性能意味着什么?
 

在PC上运行AI模型的主要挑战之一是模型大小. 人工智能模型, 尤其是llm, 可以有数十亿甚至数万亿个参数吗, 需要大量的内存和存储来存储和加载. 例如, 我们的内部实验表明,一个700亿个参数的Llama2模型具有4位精度, 最先进的自然语言生成法学硕士, 加载和推理需要大约42GB的内存, 输出速度为1.4牌/秒. 这是典型PC上无法使用的大量内存. 从本质上讲,这说明了问题所在,并为未来指明了方向. 将会有特定功能的模型,在保持精度的同时减小尺寸. 很可能会出现分歧——大型700亿类型的模型可以与具有大内存和存储的高级系统一起使用,并且可以运行微调的应用程序,如聊天完成和针对对话用例进行优化. 此外,本地设备上的个人助理可能还需要一个大参数模型. 小于10B的参数模型可用于主流设备, 可以想象,占用更小的增量内存来承载模型(~2GB),并且可以用于语言任务等应用程序, 包括文本补全, 完成列表, 像分类这样的任务.

模型大小显然对内存有影响——至少对PC内存的大小有影响. 带宽和能源效率同样重要. 随着PC(特别是移动设备)从DDR过渡到LPDDR,它在这两个方面都有所帮助. 例如, 与DDR5相比,LPDDR5X在活动使用期间消耗的功率减少44-54%,在自刷新期间消耗的功率减少86% 和LPDDR5带宽比较6.4Gb/s与DDR5的4.8 gb / s. 所有这一切都表明,如果人工智能能够迅速渗透到个人电脑领域,就能更快地过渡到LPDDR5. 有研究和开发的努力,以提高能源效率,将一些处理转移到存储器. 这可能需要很长时间,如果可能的话. 业界需要集中使用一组通用的原语来卸载到内存中,这决定了需要开发的软件堆栈. 一组给定的原语可能并不适合所有应用程序. 因此,让我们说,目前在PC内存中的处理有更多的问题比答案.

更大的问题是,人工智能模型的最佳点在哪里? 如果模型尺寸保持相对较大, 是否有一种方法可以减少对内存的依赖,并将部分模型推入存储中? 如果发生这种情况,则需要通过增加存储带宽来适应模型旋转. 这可能会增加第5代PCIe存储在主流PC中的扩散,或者可能加速第6代PCIe存储的引入. 在苹果公司最近发表的一篇沙巴体育安卓版下载同一主题的论文中1, Alizadeh等人的“flash中的LLM:有限内存下的高效大型语言模型推理”提出了一种在超过可用DRAM容量的设备上运行大型语言模型(LLM)的方法. 作者建议将模型参数存储在闪存中,并根据需要将其带到DRAM中. 他们还提出了优化数据传输容量和提高读取吞吐量的方法,以显着提高推理速度. 本文评估各种flash加载策略的主要指标是延迟, 分为三个不同的组件:从闪存加载的I/O成本, 用新加载的数据管理内存的开销, 以及推理操作的计算成本. 总之, 本文通过将模型参数存储在闪存上,并将其按需输入到DRAM中,为有效运行超过DRAM可用容量的llm提供了解决方案.

人工智能能力将不断发展. 目前嵌入式NPU集成到CPU和分立gpu是一个开始. 来自Kinara的AI加速卡, Memryx, 和Hailo是在PC上卸载AI工作负载的替代实现. 模型可能发展的另一种方式是功能特定的模型,它更小,并且针对特定的功能进行了优化. 这些模型需要根据需要从存储到内存进行轮换,但对存储的影响与运行大型模型类似.

分立NPU的一些优点是:

  • 它们可以以比CPU和GPU更低的功耗和发热量处理复杂的AI模型和任务.
  • 它们可以为图像识别提供更快、更准确的人工智能性能, 生成的人工智能, 聊天机器人, 以及其他应用.
  • 它们可以补充现有的CPU和GPU功能,并增强用户的整体人工智能体验.

联想, 在其ThinkCentre Neo Ultra台式机上, 将于2024年6月发射, 声称这些卡比目前的CPU和GPU解决方案提供更节能和更强大的人工智能处理.2

单独的TOPS作为一个价值指标可能会产生误导. 最后,重要的是单位时间内推断的数量、准确性和能源效率. 所以对于生成式AI, 它可以是每秒的令牌数量或在不到几秒的时间内完成稳定的扩散. 以行业可接受的方式衡量这些指标需要开发基准. 举个例子:我在CES上参观了CPU供应商的所有展位,分别展示了NPU播放器. 每个演示都声称自己的实现在这方面或那方面具有优势.

人们对将AI引入PC领域充满热情. PC原始设备制造商认为这刺激了PC的更新,并增加了更高价值内容在PC中的份额. 英特尔正在鼓吹到2025年实现1亿台个人电脑,这几乎是整个个人电脑总容量的30%. 无论采用率如何,作为消费者,2024年都有值得期待的事情.

参考文献

SBU客户存储副总裁兼总经理

普拉萨德Alluri

普拉萨德Alluri是存储业务部门的副总裁兼客户存储总经理. 此前,他曾担任公司战略副总裁 & 孵化项目. 他曾在美光和英特尔工作, 他在哪里担任过沙巴体育结算平台开发方面的各种职位, 沙巴体育结算平台规划与策略. Prasad在印度理工学院(孟买)获得学士学位,博士学位.D. 他是亚利桑那州立大学的MBA,也是沃顿商学院的MBA. 工作之余,普拉萨德喜欢打扑克和徒步旅行.

普拉萨德Alluri
" class="hidden">易车会