AI 与大模型如何影响企业基础平台和数据体系建设？_ca88登录页面

ca88登录页面AI 与大模型如何影响企业基础平台和数据体系建设？

发布时间：2024-05-29 15:56:26来源：ca88.com 作者：ca88官网

　　AI 时代的数据智能化需要在基础设施、算力、架构、数据训练等多个层面进行优化调整。在前段时间，InfoQ 邀请了 ArchSummit 架构师峰会上的专家小质科技技术 VP 胡月军、天翼云资深研发专家刘超，和高级架构师 / 大数据基础架构负责人王海华老师来直播，一起聊了聊他们团队在 AI 环境下更智能的处理数据和利用数据的。以下是直播整理。

　　InfoQ：随着 AIGC 的爆火，大模型的训练对于底层的算力基础设施提出了更高的要求，刘超老师在云计算领域拥有 10 多年的工作经验，可以谈谈您在这方面的观察吗？大模型究竟对企业的底层基础设施带来了哪些挑战？

　　刘超：我曾长期从事类似底层云计算相关的工作。一开始，我们都知道计算的核心是围绕着计算、网络和存储展开的。然而，在大模型时代，我们注意到了一些变化。现在，我们关注的焦点似乎转移到了算法、算力和数据方面。今天另外两位老师在数据方面比较专业，我是更加侧重基础设施层面，我认为在大模型时代，我所感受到的更多压力来自于算力方面。云计算的算力与智算的算力存在着一定的差异。以前，我们主要使用通用的 CPU 算力，它主要用于普通计算任务，比如虚拟机，容器以及运行在上面的电商业务。然而，在智能计算时代，我们需要更多的并行计算、向量计算，矩阵计算，这就需要一种算力，也就是我们常说的 GPU 算力。

　　除了 GPU 之外，还有其他一些不太显而易见的算力需求。比如大模型除了计算量大之外，大型模型在整个集群中的相互关联计算可能会导致一些协同性问题，例如海量的数据交互，这就需要更高吞吐量和更低时延的网络，再如大数据量的训练数据的并行高速读取，这与我们以前使用的对象存储有所不同。这些方面都需要额外的算力支持，有时我们称之为 DPU。因此，这些因素加在一起，带来了与以前那种大促或者大数据场景下分布式计算不同的挑战。这些是我感受到的这个挑战的一些方面。

　　InfoQ：进入 AI 时代，数据作为新型生产要素成为企业竞争力的核心，企业越来越重视私域数据的全链路智能管理，这给数据库技术也提出了新的要求，具体表现在以下几个方面：

　　胡月军：首先，我们先就目前企业数据系统的现状和问题进行讨论，再展望未来。目前我们了解到，许多企业的数据分布在不同的系统中，根据不同的应用场景而定。在业务规模较小的情况下，一些简单的查询和事务型数据存储在 MySQL 和 PostgreSQL 中。随着业务的扩展，一些企业会将数据存储到 MongoDB 中以获得更好的水平扩展性，MongoDB 以其文档模型支持半结构化数据存储和读取，但也存在一些问题，例如难以表达多对多的关系和更新时的事务问题。

　　另一类场景是关键字搜索，随着业务数据量的增加，通常会使用 Elasticsearch 作为查询引擎，但这种方案可能存在一定的延迟和更新不友好的问题。

　　还有一类场景是汇总分析，通常可以使用 ClickHouse 或 Snowflake 等工具实现，但在实时性和处理更新方面可能存在一些效率不足。

　　随着 AI、AIGC 等技术的发展，以及大模型对自然语言理解能力的增强，语义搜索逐渐成为许多企业必备的功能。然而，由于大模型主要基于公域数据训练，私域数据往往无法充分利用。解决这个问题的方法之一是通过微调大模型，将私域数据融入其中，但这种方法成本较高，因为需要重新训练模型。

　　另一种方法是将大模型与内部的私有数据知识库结合起来，通过向量化等技术检索内部知识库，以提供语义搜索的答案。这种方法通常称为 RAG 方法。然而，这种方法也面临着数据更新和结构化数据整合等方面的挑战。

　　综上所述，企业为了解决各种不同场景下的问题，通常会采用不同的技术系统，这会增加开发成本和维护成本。此外，由于数据存储在多个系统中，存储成本较高，而数据流转可能会带来一致性和实时性方面的问题。

　　此外，随着 AI 和语义搜索的引入，以及向量化数据的使用，如何与现有的结构化数据进行协同，以提高语义搜索的准确性也是一个挑战。回归到用户对数据的本质需求，主要包括数据的一致性、正确性、实时性以及高性能的存储，查询和挖掘能力。要解决以上问题，我们需要不妥协地面对正确性、性能和实时性等物理极限的需求。

　　InfoQ：从数据分析领域的视角来看，大模型技术将如何改变企业的数据架构，以及用户的日常数据分析体验？

　　王海华：在我的理解中，大模型对数据架构的影响主要表现在两个方面。首先，随着大模型的引入，数据架构需要适应新的应用场景，例如模型的训练、调优和推理，这会对数据的质量组织形式提出更高要求。过去，数据仓库可能更多地服务于结构化数据的报表和算法应用，而现在需要考虑非结构化数据的语料，例如音频、图片和视频等。因此，数据架构需要逐渐演进，从以前的数据仓库向更灵活的架构，如数据中台和布仓一体，转变。

　　其次，大模型的使用可能导致数据元数据的不统一性。例如，在实时和离线数据源之间可能存在不一致性，而新的算法场景又会引入新的元数据需求。因此，统一元数据对数据架构的重要性不言而喻，它能够为不同场景提供统一的数据视图，便于大模型的推理和训练使用。

　　另外，王海华老师提到了数据分析领域。大模型的引入可能会提升数据分析的效率和智能化水平。传统的数据分析工具往往需要复杂的操作，例如编写 SQL 查询和定制开发，而大模型具有强大的语义理解和逻辑推理能力，可以降低数据分析的门槛，使业务用户能够更轻松地进行数据分析。

　　此外，大模型的智能分析能力还可以通过逻辑推理和智能代理技术实现自动化的数据分析。用户可以通过简单的提问，获取复杂数据分析结果，从而提高工作效率。

　　总的来说，大模型技术的引入将带来数据架构的变革和数据分析效率的提升，为企业数据应用带来更多的便利和创新。

　　InfoQ：在 AI 大模型的背景下，企业构建智算平台涉及哪些核心的技术要点？在实践和落地过程中，需要特别注意哪些问题 / 可能会踩到哪些“坑”？

　　刘超：首先，智算平台与通用计算存在一些不同之处，主要体现在管理、计算、存储和网络方面的改变。管理方面，调度器和工作节点之间的互通操作不会有太大变化。但在计算方面，由于大模型对 GPU 的使用效率要求较高，通常会采用裸金属技术，直接访问 GPU 卡，而非虚拟化。裸金属服务器之间的虚拟网络需要通过 DPU 完成。GPU 之间的数据互通需要更加低时延的网络，多会使用 RDMA 网络，InfiniBand 来实现。在存储方面，针对大模型计算的高并行下载需求，也需要提升网络的性能，也会采用高性能网络，可以使用 RoCE 网络，也可以使用 InfiniBand 网络。

　　在软件层面，需要配备 GPU 算力调度技术，满足大规模计算任务的运行，需要配备并行文件系统，能够满足大模型训练的高并行下载需求。因此，在构建智算平台时，需要对整个计算、网络和存储架构进行全面的重构，以满足 AI 计算的需求。

　　此外，构建智算平台也会带来一些挑战。企业可能需要接触一些新的技术栈，采购新的硬件设备，这些通常相对昂贵。一方面，企业需要进行大量的新硬件的适配工作，例如新的组网，驱动，插件，内核模块等，另一方面企业需要进一步优化各个方面，包括调度、GPU 复用、网络协议，存储协议等，以最大程度发挥这些昂贵硬件的作用。

　　总的来说，构建智算平台是一个复杂的过程，硬件复杂，软件平台复杂，部署复杂，优化复杂，使用好能发挥出算力也复杂，对任何企业的技术和资源都是很大的挑战。

　　刘超：在过去一段时间里，我们都注意到大模型层出不穷，呈现出爆发性的趋势。作为云厂商，我们主要服务 ToB 客户，在对客户落地大模型方面积累了一些实践经验。

　　当前大部分企业实践大模型有一个特点，即从零开始训练一个完整的大模型成本过高，因此很多企业更倾向于在现有模型的基础上进行调优。这种模式在实践中比较普遍。

　　在将模型落地时，企业通常需要进行全面评估，而不是像以前对待其他新兴技术例如容器微服务一样，进行简单地尝试，因为成本比较高。这种评估涉及到多个方面。

　　首先是对算力需求的评估，包括计算、网络和存储几个方面。计算方面的评估需要考虑现有模型的参数规模、数据量的大小，采用的调优算法等因素，以确定所需的 GPU 卡的数量和训练时间成本。数据存储的评估，需要考虑数据量和文件系统的选择，以保证训练数据的读取速度。网络方面的评估需要确定是否需要重新建设高性能低延时的 RDMA 网络以支持大模型的通信。

　　其次企业在建成大模型平台之前还需要对数据进行评估，包括数据量和数据的质量。数据质量的评估尤为重要，因为低质量的数据可能会导致浪费时间和金钱。

　　最后还需要评估平台建设的复杂度需求，是否需要构建一个 GPU 卡调度平台，其上是否需要构建一个深度学习平台，再往上是否要构建一个模型训练平台。

　　在落地的过程中，我们通常会和客户协商从这几个方面出发，让客户更有效地利用资源，建立一个高效的计算平台。

　　InfoQ：可以结合一下实际场景分享一下我们是在利用大模型进行智能数据分析落地所存在的挑战的吗？我们在智能数据分析技术建设实践方面有哪些新的思考和尝试？

　　王海华：关于大模型引入后，如何应对数据架构和数据分析方面的需求和挑战。首先，我们应该从数据分析方面入手。在大模型时代，数据架构方面出现了一些问题，包括私域数据和统一数据带来的挑战。我先从数据分析方面谈起，因为我们在智能数据分析方向做了一些实践工作，正如 28 米分享的主题所述。回到的话题，我们是一个类似货运版滴滴的业务场景，目前已经发展到中等甚至以上级别的互联网公司规模。

　　公司非常重视数据，我们已经全面收集和存储了大量数据，并通过数据应用形式为经营决策、精准营销、风控和地图 LBS 等场景提供支持。然而，随着大模型的引入，我们也意识到智能数据分析应该提供更深层次的洞察力，实现智能化。目前，我们的智能化水平还有待提高，数据分析仅仅是提供了数据，但在某些场景和 AI 方面的智能化还不够深入。

　　有了大模型后，我们发现可以将其与数据分析相结合，例如我们运营团队每天进行大量的业务策略调整和效果分析，包括业务数据的归因，以及订单和用户增长等方面的监测。对他们来说，这些场景非常重要。因此，针对这些关键场景，我们希望提供一个低门槛的入口，让他们可以轻松获取相关信息和洞察力，而不需要依赖复杂的数据产品或深度分析报表。

　　基于这个需求，我们启动了一个名为“速查”的项目，旨在建立一个智能数据分析的统一入口。我们希望逐步简化现有的数据产品，将其整合为一个统一的智能入口。同时，我们希望通过这个入口提供简洁、易用的数据查询和洞察力，以及整合各种数据分析产品的能力，实现用户语义化的输入和简洁的输出。

　　然而，在简化过程中，我们面临着数据质量和数据指标的挑战。我们希望将分散的数据逐步整合为一个统一的指标体系，并提供高质量的数据和元数据。通过这种方式，数据查询和洞察力的获取将变得更加轻松。此外，我们也意识到大模型在推理能力方面存在局限性和幻觉，而在数据场景中，对数据正确性的要求非常高。因此，我们需要在数据层面上做出一些思考和尝试，以确保数据的质量和指标的准确性。

　　另外，我们需要清楚地认识到，大模型的能力可能是临时的，并随着时间的推移而发生变化。因此，我们需要在解决问题和应对挑战时做出明智的判断，并寻找正确和高效的解决方案。我相信这些思考和尝试不仅适用于数据分析场景的落地，也适用于其他所有领域的应用落地。

　　王海华：实际。

ca88登录页面上一篇：工业大数据测试工程师如何报考？行业前景如何？什么人下一篇：昌平区政务服务和数据管理局正式挂牌成立

点击收藏

经典案例

ca88登录页面AI 与大模型如何影响企业基础平台和数据体系建设？