GrimoireLab 是一个用于软件开发分析的工具集。它包括一组协调的工具,用于从支持软件开发(存储库)的系统中检索数据,将其存储在数据库中,通过计算相关指标来丰富它,并使其易于运行分析和可视化。该项目的目的是为以下方面提供开源平台:从与开源开发相关的几乎任何工具(数据源)收集自动和增量数据(源代...
Faust 是一个流处理库,将想法从 Kafka Streams 移植到 Python。它在 Robinhood 用于构建高性能的分布式系统和实时数据管道,每天处理数十亿个事件。Faust 提供流处理和事件处理,与 Kafka Streams,Apache Spark / Storm / Samza...
Annoy 是 Spotify 开源的高维空间求近似最近邻的库,在 Spotify 使用它进行音乐推荐。最邻近搜索(Nearest Neighbor Search, NNS)又称为“最近点搜索”(Closest point search),是一个在尺度空间中寻找最近点的优化问题。Annoy 能够使用...
IoTDB是针对时间序列数据收集、存储与分析一体化的数据管理引擎。它具有体量轻、性能高、易使用的特点,完美对接Hadoop与Spark生态,适用于工业物联网应用中海量时间序列数据高速写入和复杂分析查询的需求。主要功能与特点IoTDB具有以下特点:灵活的部署方式云端一键部署终端解压即用终端-云端无缝连...
wuhan2020 是一个新型冠状病毒防疫信息收集平台。针对 2020 年初在武汉爆发的新型冠状病毒疫情,本项目旨在收集各医院、酒店、工厂、物流、捐赠、捐款、预防、治疗、动态等信息,统一收集,统一发布,以便各方之间进行信息互通,有效调配社会资源。
Elasticsearch-datatran 是由 bboss 开源的一款将各种数据源中的海量数据同步到 Elasticsearch 的高效数据同步工具。功能特点1.支持多种数据源之间的数据同步数据库表数据同步到Elasticsearch数据库表数据同步到数据库表Elasticsearch数据同步到...
Rope 是一款轻量级别的 ETL (Extract-Transform-Load) 工具。主要用于从不同源获取/接受数据,然后统一处理数据后,写入到各种目标源;系统采用多级缓冲和数据缓存,每秒可处理上万级别的数据;而且系统采用插件扩展系统的各个组件,针对不同需求扩展不同插件。特性轻量级别、快速、简...
Pothos 项目是一个完善的数据流框架,用于创建互相连接的数据处理模块拓扑图。数据处理的拓扑图可以进行图形化的设计和测试,并应用到设备网络。Pothos framework API 是平滑的、聪明的开发框架,使得用户能够快速地创建定制的数据处理模块,用户只需要按照模板套路化地实现模块即可。数据处理...