1. 首页 >IT信息 > 正文

KatanaGraph认为大图工作负载需要大的云硬件

导读 根据Gartner的数据,到2025年,80%的数据和分析创新将使用图表技术,这将比2021年的10%有显著增长。Katana Graph是希望在这个蓬勃发展的...

根据Gartner的数据,到2025年,80%的数据和分析创新将使用图表技术,这将比2021年的10%有显著增长。Katana Graph是希望在这个蓬勃发展的市场中分一杯羹的公司之一。它正在通过开发一个图形数据库平台为自己开辟一个空间,该平台可以利用分布式硬件的进步来压缩大型图形工作负载。

Katana Graph于2020年由两位计算机科学教授克里斯罗斯巴赫(Chris Rossbach)和德克萨斯大学奥斯汀分校首席执行官凯沙夫皮加利(Keshav Pigali)共同创立。Rossbach是VMware研究小组的成员。他的学术研究侧重于虚拟化、加速器和并行架构,而Pigali则专攻并行编程和分布式计算。

尽管这家总部位于奥斯汀的公司相当年轻,但Katana Graph的图形数据库技术来自其联合创始人几十年前的研究,该公司首席商务官Farshid Sabet表示。

“一个公司的价值是在数据大的时候体现出来的。当你必须做非常深入的分析时,当你遍历节点并进行更深的跳跃时,计算强度将呈指数级增长。”萨贝特说。

分布式图形

Katana Graph的分布式并行计算框架由三部分组成,包括流分区、图形计算引擎和通信引擎。划分器负责将数据分发到集群的各个节点,而计算引擎负责协调和安排各个节点的工作。同时,通信引擎使得各个节点能够有效地完成工作。

武士刀图带来了图形数据的多个引擎(来源:武士刀图)

在加入Katana Graph之前,Sabet曾在Movidius和Intel工作。他说,该公司对如何构建分布式图形数据库有了新的理解。他说,这使得武士刀图形工作的规模和速度是图形竞争对手无法比拟的。

"许多人在划分图形时采用了一种简单的方法."萨贝特告诉Datanami,“但随着图表的规模越来越大,新的案例不断出现,其中一些假设不成立。”

Sabet介绍,公司的核心知识产权存在于框架的图形通信部分,这一层面的进展使得Katana Graph能够高速运行非常大的图形工作量。Sabet表示,它们还使平台能够以数据流的方式同时运行不同的工作负载,类似于Databricks的工作方式。

武士刀图形提供了四种方式来查询图形中的数据,包括图形查询;图形分析(路径查找、中心性和社区检测);图挖掘(模式发现);和图形AI(预测)。

开发者可以在武士刀图中使用Cypher Neo4j程序工作流程。Cypher是一种图形编程语言,最初由Secondary开发,后来开源。许多数据库供应商都支持Cypher。Sabet说,Katana Graph还支持Python和C。

硬件升级

Sabet介绍,Katana Graph可以利用不同类型的硬件,包括CPU、GPU、FPGA和ARM芯片。该软件还可以支持英特尔Optane内存和加速器。但武士刀图的分布式性质使其独一无二。

“在过去的九年里,我们做了很多工作……能够利用分布式内存,甚至一些不同类型的内存,”Sabet说。“大多数这些[图形]环境只在CPU上运行,在内存中。Nvidia有一些东西可以在一个GPU一台机器上运行。如果你想将这些结合在一起(以实现可扩展性),那么唯一的方法就是不仅支持各种硬件,还支持统一处理图形的分布式硬件。”

据Sabet称,Katana Graph的核心技术最初是在UT-Austin的高性能计算(HPC)基础设施上开发和测试的。这些机器内存很大,十年前很贵,但是要解决高端的科技问题。

随着内存成本的降低,尤其是在公有云环境下,为用户运行分析和人工智能工作负载提供了新的可能性,而这些在之前的商业领域是成本高昂的。这对Katana Graph来说是好的,它已经被证明可以扩展到256个节点和超过35亿个节点和1280亿条边的图(该公司表示,它被设计为可扩展到1万亿条边)。

“图形的确是计算和内存密集型的,”Sabet说。“10年和12年前的超级计算机是我们今天的服务器。这就是公司在这方面做得非常好的原因。”

十几年前,很多开发者都在研究如何降低应用的CPU内存。“这是12年前的正确决定,”萨贝特说。“但这些人[罗斯巴赫和皮加利]没有这种限制。他们正在考虑我们需要什么来解决这个问题。”

GNN一直在发展。

武士刀图形的一个优点是开发者可以把他们的

经使用XG Boost和PyTorch等框架构建的机器学习和AI模型纳入Katana Graph平台,Sabet说。

“我们可以将所有这些结合起来,而不需要你改变任何东西或重新修改算法。你使用那些现有的框架,现有的库,并在[你的]机器学习之上添加,”他说。“你要确保开发人员对他们所拥有的环境感到满意。”

图形神经网络,或称GNN,结合了深度学习和图数据库的力量,是目前一个特别令人感兴趣的领域。与训练卷积或递归神经网络来识别图像或字串中的模式不同,GNN可以识别和利用构成图的数据元素的连接性模式。

他说,GNN的准确性、性能和成本优势目前正在获得大量的追随者。例如,生物医学研究人员可以使用在Katana Graph中运行的GNN来识别新的蛋白质,这些蛋白质在图数据库中被表达为一个错综复杂的分子集合。“你训练它去寻找那个蛋白质组,”Sabet说。

Sabet介绍,除了生物医学研究人员之外,Katana Graph还吸引了金融服务领域的兴趣。欺诈检测是一个典型的图数据库用例,Katana Graph在这些领域中占有一定的份额。

“有很多技术可用于欺诈检测。但这个可以预测可能发生的欺诈行为,而且准确度更高,”他说。“他们想要机器学习算法的更新版本,如XGBoost和其他技术”。他指出,GNN提供了这种更新的版本。

Katana Graph的第三个重点领域是网络安全。由于互联网上有如此多的网络信号在飞舞,图形分析带来了一个强大的工具,可以帮助人们连接这些点,并让不怀好意者保持警惕。Sabet说,该公司的成立部分得益于与DARPA的合作,将这些信号整合在一起。

Katana Graph有一些付费客户,并有一个不错的渠道,可以获得更多的客户。该公司在2021年完成了2850万美元A轮融资。据Sabet说,这使公司在一年内从不到20名员工发展到近100名员工。

“我们有来自各个不同领域的专家在[加入公司],”他说。“大多数员工都是工程方面的,但商业方面也一直在增长。我们已经能够从我们的竞争对手[如]TigerGraph、Neo、谷歌和微软那里聘请到非常有能力的人。”

该公司的软件目前只在云端使用,公司计划很快推出云端管理产品。

原文i链接:https://www.datanami.com/2022/06/02/big-graph-workloads-need-big-cloud-hardware-katana-graph-says/

标签:

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢