2024.07月|AI中间层的公司发展到哪里了?

 

一、国内初创公司的业务和产品情况

 
AI开发平台:Dify.AI
 
 

2023 年,张路宇创办了 Dify(https://dify.ai/zh),开启第二段创业经历。Dify 刚推出时其基于 RAG 的 ChatBot 产品就引起了广泛的关注。2024 年,Dify 新的主力产品推出:Dify workflow,一个兼顾易用和灵活的开发框架。Dify workflow 一经推出,就引起了用户和社区的广泛反响。12 个月内Dify在Github(https://github.com/langgenius/dify)超过 3 万 Star,全球安装量超过 40 万,开源大模型中间件 5 月全球增速第一,取得了非常不错的成绩。

 

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员,也能参与到 AI 应用的定义和数据运营过程中。

 

由于 Dify 内置了构建 LLM 应用所需的关键技术栈,包括对数百个模型的支持、直观的 Prompt 编排界面、高质量的 RAG 引擎、稳健的 Agent 框架、灵活的流程编排,并同时提供了一套易用的界面和 API。

为什么使用 Dify?

 

你或许可以把 LangChain 这类的开发库(Library)想象为有着锤子、钉子的工具箱。与之相比,Dify 提供了更接近生产需要的完整方案,Dify 好比是一套脚手架,并且经过了精良的工程设计和软件测试。

 

重要的是,Dify 是开源的,它由一个专业的全职团队和社区共同打造。你可以基于任何模型自部署类似 Assistants API 和 GPTs 的能力,在灵活和安全的基础上,同时保持对数据的完全控制。

 

模型支持列表

 

dify在国内外反响非常热烈,一个开发者社群内的讨论:

其CEO张路宇在朋友圈反应Dify在日本开发者见面会的情况,可见有很多的开发者参加。

日前张路宇已经身在米国,预计是要重点发展北美和全球市场的商业化了?感觉Dify在是中国大陆发展出来的比较好的全球化AI开发平台了。希望代表中国AI之光在全球披荆斩棘吧!

最近,Dify 宣布开源 DifySandbox,DifySandbox 与 Workflow 深度集成,为 Code 节点、Template Transform 节点、LLM 节点以及 Tool 节点中的 Code Interpreter 提供底层代码执行环境。作为复杂 Workflow 的运行基础,DifySandbox 能够支持 LLM 应用内部的结构化数据转换、数据拼接和逻辑处理,帮助开发者构建更加强大的应用。

 

关于Dify的融资

 

公开数据透露,Dify所在的苏州语灵人工智能科技有限公司,在2023年7月披露获得德联资本和华创资本的天使轮融资,具体融资金额未披露。按说像Dify这样的产品表现,资本可能在排队接触送钱,而后续未见其他融资,可能在憋大招?

 

 
模型优化及芯片适配:清昴智能
 
 

清昴智能是一家AI模型推理优化与芯片适配解决方案提供商,旨在为各行业客户提供顶尖的AI优化和工程化能力,致力于解决复杂AI模型的落地难、性能差、资源耗费高、硬件适配难等问题。

 

MLGuider

 

清昴智能自研的AI模型自动优化工具链 MLGuider,针对当前主流的硬件环境进行适配与优化。除Nvidia之外,MLGuider还支持AMD、昇腾、寒武纪、天数、燧原等多款芯片,让客户除了Nvidia以外有更多的选择,致力于打造适配任何硬件环境的优化与推理引擎。

 

核心能力

 

对目标模型进行特定硬件优化,已实现主流AI基础模型的全部支持, 实现硬件效率最大化;

 

统一底层IR中间表达,屏蔽底层芯片硬件差异,整合硬件生态,实现多硬件无缝迁移;

 

高并发、高吞吐、低延迟、规模化部署。

 

主要产品

 

高性能训推一体机:全流程覆盖,高效低延迟;主流框架完全兼容,代码0改动。

多芯异构智算云平台:多源国产芯片支持,统一底层调用方式;混合跨框架部署,无感切换。

大模型开发部署平台Pleiades AI:各类开源模型统一优化推理加速;服务部署弹性伸缩,全生命周期管理。

 

Pleiades AI是一套完整的从大模型选型、微调与开发管理、集群化部署、服务上线与管理的企业级LLMOps平台,致力于降低大模型开发门槛和资源消耗,推动大模型的平民化。

 

产品特点

 

大模型与国产芯片适配,除英伟达之外,MLGuider还支持AMD、高通、昇腾等国内外芯片的部署。

 

早期的MLGuider主要针对边端芯片和传统小模型,采取量化、蒸馏、稀疏化等一系列优化方法。随着市场对大模型的需求爆发,清昴智能联合模型优化、分布式优化和编译优化等优化技术栈,打造了面向基础模型和底层算力硬件的全链路工具链,着重对大模型和底层AI芯片,尤其是国产芯片的适配优化进行了功能迭代。

 

以国产头部硬件昇腾为例,在今年2024昇腾开发者大会上,清昴智能作为昇腾伙伴代表也首发了基于昇腾原生开发环境的MLGuider-Ascend工具链,解决了AIGC模型在落地国产昇腾硬件过程中模型-算力不匹配,技术栈复杂,迁移与优化成本高等问题。

 

除模型推理部署优化工具链外,清昴智能还推出了企业级基础模型开发部署平台LLMOps、大模型一体化整机方案、大模型本地化及边端部署方案等解决方案矩阵。MLGuider已验证可在AMD MI200系列产品上实现对标Nvidia A100的性能,并计划推出围绕基础模型的LLMOps平台。

从MLGuider到Pleiades AI,感觉清昴智能一直在希望通过产品的进化来迎合开发者的需求,但是产品在市场上的反馈比较少。面临国内外强敌,能否突围,恐怕还是要看昇腾芯片的市场发展及华为的脸色。

 

清昴智能融资

 

AI推理部署解决方案厂商「清昴智能」2024年5月完成了数千万元Pre-A+轮融资,达晨财智、启赋资本领投,老股东奇绩创坛跟投。此前,清昴智能已获得某世界500强科技巨头公司的千万元战略投资,资金将主要用于人才梯队组建,产品研发和市场落地。

 

 

 
异构算力编译和优化软件:中科加禾
 
 

中科加禾聚焦芯片编译与优化技术,致力于为我国大模型产业提供通用化、低成本、高性能的算力资源。中科加禾计划打造一个支持多种国产芯片编译的工具链,建立一套通用化、低成本、高性能的基础软件。通过该软件,能让用户把英伟达上的应用程序无缝移植到国产芯片。

 

中科加禾有三条产品研发线,包括大模型推理优化工具、CUDA兼容编译器和中长尾芯片定制编译器。

 

大模型推理优化工具是公司现阶段的主打产品线,它能支持多种AI芯片,通过编译优化,使国产算力得到提升。其创始人崔慧敏介绍,大模型对芯片算力的需求很大,公司会对芯片做非常深度的优化,包括从上层到下层,每个层次都开展更深度的融合优化工作。这部分工作也得益于团队前期的技术积累。崔慧敏说,英伟达的A800芯片通过这款产品来编译优化,多卡推理速度可以达到A100芯片的90%以上。

 

中科加禾的核心技术是完全自研的支持多种国产芯片的虚拟指令集,采用类似JVM虚拟化的技术来构建跨平台的后端软件栈。虚拟指令集的思想来源于英伟达的PTX,PTX在英伟达的生态中扮演着重要的位置,通过PTX的抽象屏蔽了不同代英伟达GPU的差距,同时不会对性能造成额外的影响。崔慧敏表示,研发团队将设计针对CPU、GPU、NPU三大类芯片的虚拟指令集扩展,在设计编译优化时按类别实施优化,芯片厂商再根据硬件细节精细调优。

 

目前,中科加禾已和国内头部AI算力芯片和硬件设备厂商达成合作并开始产品研发。崔慧敏介绍,公司商业模式主要有三种:短期内将和芯片及服务器厂商合作,帮助其快速构建软件栈,完成商业版工具产品或算力交付。发展到中期,将以出售公司研发的工具软件许可证为主。到长期,将和云/数据中心进行合作,探索规模化扩展和复制的销售模式。

 

主要产品

 

目前中科加禾的产品计划在7月19日发布,预计的产品是加禾异构原生AI算力工具,名称可能是CoreSigma。

 

中科加禾融资

中科加禾也是依托国产力量和市场发展的企业,比较依赖国产芯片的市场发展。

 

 
推理加速套件及云服务:SiliconFlow
 
 

 

Onediff:SD系列推理加速套件

https://github.com/siliconflow/onediff

模型支持

SiliconLLM:LLM推理加速套件

SiliconCloud:云Maas服务

市场运营

 

SiliconFlow在开发者市场中比较有影响力的产品是Onediff,目前Github有1.5k star。据了解,多家企业已经在用Onediff开源版上生产环境,不过其企业版的商业化较为缓慢,于是在最近推出了SiliconCloud云Maas平台。

 

融资

 

二、关于对AI中间层的价值的讨论

 

AI中间层的真正价值,在于面向的客户及为客户解决的问题。

 

根据对以上4家企业的分析,可以看到他们面向的客户有以下几类:各类中小AI应用的开发者、各类明星AI应用的开发者、大模型公司、云算力厂商和芯片公司等。

 

其中Dify主要面向各类中小和明星AI应用开发者。清昴智能和中科加禾主要面向国产化像昇腾等芯片厂商和云厂商。硅基流动主要面向大模型公司和AI明星产品公司,其云Maas服务面向各类AI开发者。目前市场反馈来看,除了Dify.AI,其他产品的推广和商业化目前还较为缓慢。

 

一些业内人士对AI中间层公司的整体价值有多大还是存疑的。特别是在工具软件层面。因为在以Nvidia生态为主流的推理软件(TensorRT、vllm等)提供免费且普适的服务方案。然后各个互联网大厂和明星大模型公司都在通过自研+开源的战略来构建自己的算力适配和推理优化能力。另一个方面,目前AI应用的生成量还没起来的情况下,AI应用产品通过付费软件为产品推理加速和优化的市场需求有多少?以软件license key为主的是商业模型,可能需要度过较为漫长的行业发展期。

 

另一个方面,Dify开发平台所代表的AI中间层公司的价值,体现在其灵活性和扩展性,能有效连接数据和应用,以便让开发者更方便灵活的开发各类AI应用。

 

所以我们看到,具备中间层能力的公司,最终可能都走向平台化,提供更全面的开发服务。比如Databricks、Together.AI、Fireworks、Replicate等。

 

还有一个方面,像中科加禾和清昴智能等创业公司,以国产替代作为主要突破口,未来一段时间的发展,将非常依赖政府力量和华为的眼色。可能会逐渐走向非市场化的道路,主要服务于国家战略。看最近华尔街日报也有报道,说现在中国大陆国家层面主导AI战略,对AI及企业的发展,到底是好事还是不好事呢?

 

三、国内主流的大模型公司,训练和推理在用什么计算卡?

 

据不完全不准确的调研。推理方面,很多大模型公司用A800,A100,H100,4090,3090等都有。很多靠前的大模型或AI产品,月访问量几百万到千万的,很多直接在用A800,H100等做推理。因为他们在用这些卡做训练,然后直接用这些计算卡做推理。有A系列和H系列卡的用户,推理量没起来的情况,谁会再去买4090呢?所以说,推理的时候,很多企业的第一考虑,不是哪个推理的性价比最高,而是手上有什么卡,就会优先用什么卡。比如接触过的某二线云厂商,手上有一批4070,就会优先给客户推4070 ;某二线大模型和toB应用厂商,手上有大量的3090甚至更老旧的卡,就会优先研究用这些卡。某一线教育科技美股上市公司,手上有大量3090,就会用3090来推理,而且明确说对华为芯片,现在可能都没研究,等到市场有比较认可的时候,再去看。

 

在训练部分,这个应该是有共识的,就是用A和H系列的计算卡。

 

很多人说大模型公司在大量使用4090做推理,厮认为这个说法不可靠。用户需求没起来,AI的用量没那么大,已经囤的卡足够用。就算是需要购买卡,从未来换代的考虑,应该也是够卖最新的A或H系列的卡,而不是4090卡。所以说整体来说,大量在用4090卡做推理不可信。感觉整体肯定没有A和H系列的卡的量多。

 

而市场关注的Ascend 910系列芯片,据悉一些企业在尝试性使用和测试。大规模的上生产环境的,可能要等到2025年甚至更晚?这中间在芯片量产、软件栈适配兼容和推理优化方面,每个环节,都有巨大的工作需要做。市场上AI推理量没起来,NV卡足够用的情况下,除了国家推动,谁会有动力去推动国产卡的适配和使用呢?而包括一些国央企的大模型公司训练,据悉也是用NV卡,而不是昇腾。可以这样说,可能国内几乎没有一个大模型是真正用昇腾训练出来的。

 

四、端侧AI大模型的落地

 

端侧AI大模型的落地,首先要看应用。要看哪些类型的应用需要端侧大模型。直观来看,端侧主要解决的是推理时延和安全的问题。

 

和云侧大模型相比,端侧大模型要在本地部署,所以参数规模都不大,不用担心私密数据在推理时被泄露;不需要网络传输,因此响应速度更快;设备原生搭载,不需要租用云资源,用起来更省等。

 

听起来,端侧大模型简直是AI设备不可或缺的标配。但实际情况,可能出乎很多人的意料。

 

端云协同、云端大模型,才是大模型在端侧的主流形式。比如目前很流行的“手机拍照一键擦除背景人物”,仅靠端侧大模型的计算能力是无法实现的,需要端云协同来完成。再比如公文写作、长文要点总结、PDF要点摘要等,端侧大模型要么无法完成,比如荣耀、OPPO端侧大模型都不支持PDF文本摘要,小米MiLM的支持度和生成效果也不够好。最终,用户还是要访问GPT-4、文心一言、智谱清言、讯飞星火、KIMI等云端大模型的网页/APP,来满足一些复杂AIGC任务需求。端侧大模型听起来很美,但真正用起来却有点鸡肋。而随着云端大模型“变大”(走向统一多模态)又“变小”(压缩技术),再加上推理加速技术,留给“端侧大模型”的时间,真的不多了。

 

终端追求搭载“端侧大模型”,主要受限于两点:计算瓶颈、安全顾虑。大模型推理对实时性的要求,云端相比本地的时延更高。此外,手机、PC涉及大量隐私数据,传输到云端进行推理,让很多人有顾虑。上述两点“损失”正在被积极地解决。

 

比如前不久谷歌I/O大会上,就发布了响应速度快、成本低的轻量化模型Gemini 1.5 Flash。谷歌采用了“蒸馏”方法,将较大Gemini 模型的核心知识和技能迁移到了更小、更高效的模型中,Gemini 1.5 Flash在摘要、聊天应用、图像和视频字幕等多种任务中,有很好的表现,可以在不同平台运行。各类推理加速的技术优化,也显著优化了时延速度。

 

此外,本地计算硬件针对AI任务进行优化,也可以提升云端推理服务的流畅度。目前x86、Arm阵营都在积极提升端侧计算单元对AI专项任务的适配度,已经有旗舰和高端手机支持实时运行大规模参数量的大模型。

数据安全层面,终端厂商和大模型企业都推出了相应的隐私安全保护机制,通过“数据可用不可见”、脱敏、联邦学习等多种手段,防范泄露风险。

 

以一贯注重隐私安全的苹果为例,也自研了端侧模型OpenELM,可在手机和笔记本电脑等设备上运行,但在真正上线AIGC等能力时,也选择与大模型企业合作。

 

综上,使用“云端大模型”的收益正显著增大,不用“端侧大模型”的损失却越来越小。这让“以小博大”端侧大模型,显得越来越不划算了。

 

接下来的故事也不难预测,随着越来越多的终端企业,纷纷把云端大模型塞进设备,纯端侧大模型的存在会越来越尴尬,进入到“不好用-不爱用-更不好用”的循环中。

 

个人主观猜测,终端厂商做端侧大模型,感觉更是品牌方面的考量,彰显大模型技术的自研能力。类似于银行、金融机构、车企希望将数据这一核心优势,掌握在自己手里,打造行业大模型,而非交给大模型厂商。而真正在产品上应用多少,提升多少价值,可能还需要市场进一步验证。而像面壁智能的小钢炮,靠小模型来打市场,将来的市场空间可能难以预料,被某硬件厂商收购或许是未来的潜在可能。

 

关于TsingtaoAI
 
 
 
 
 

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。TsingtaoAI核心团队专长于算力、行业LLM/AIGC应用的产品研发,面向企业的大语言模型应用落地等业务,如面向智能客服、教育、人力资源、电商和轨道交通等行业领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。

 

TsingtaoAI自研基于LLM大模型代码能力的AIGC应用开发实训平台、面向CS专业的AI训练实训平台和基于大语言模型的AIGC案例学习平台,聚焦虚拟现实、金融科技、医药健康、高端装备、新能源、新材料、节能环保、文化创意、农业科技和食品科技等关键行业,通过链接全球数以千计的关键领域的AI科学家和工程师,为央国企、上市公司、外资企业、政府部门和高校提供AI企业内训和高校实训服务。

 

 

 

Product & Case.

产品与案例