winunify
本站致力于IT相关技术的分享
利用 Apache Spark 与 Git LFS 构建基于 SQLite 的原子化 CI 结果数据管道 利用 Apache Spark 与 Git LFS 构建基于 SQLite 的原子化 CI 结果数据管道
我们的 monorepo CI 系统正在变成一个性能黑洞。一个看似无害的 PR 能触发数百个独立的构建和测试任务,而定位其中引入的性能衰退,完全依赖工程师的人工排查和直觉。日志散落在各处,缺乏结构,更不用说进行趋势分析了。我们需要一个系统,
2023-11-15
构建支持 PyTorch 在线推理的低延迟实时特征存储架构 构建支持 PyTorch 在线推理的低延迟实时特征存储架构
当推荐系统或风控模型的在线推理(Online Inference)请求 QPS 从一万攀升到十万时,最大的瓶颈往往不再是模型计算本身,而是实时特征的获取延迟。批处理生成的特征时效性太差,无法捕捉用户最新的意图;而一个为在线服务设计的、能够支
2023-10-27
使用Puppet自动化部署由Weaviate、Apache Iceberg与MariaDB构成的混合特征存储架构 使用Puppet自动化部署由Weaviate、Apache Iceberg与MariaDB构成的混合特征存储架构
我们的机器学习平台最初陷入了一片混乱。特征工程管道的每个组件——离线批处理、在线实时查询、向量相似性检索——都由不同团队手动部署和维护。环境漂移成了家常便饭,开发环境的一个“小”配置更新,在生产环境就可能引发雪崩式的故障。问题的根源在于我们
2023-10-27
基于Spring Boot与Cassandra构建支持DVC版本追溯的高吞吐实时特征API 基于Spring Boot与Cassandra构建支持DVC版本追溯的高吞吐实时特征API
在任何严肃的机器学习系统中,训练-服务偏斜(Training-Serving Skew)都是一个潜藏的、难以根除的顽疾。其中一个核心诱因,就是线上实时推理所用的特征,与线下模型训练所用的特征,在生成逻辑上出现了细微但致命的偏差。问题的根源在
2023-10-27
构建从PostgreSQL到Elasticsearch的准实时、最终一致性同步管道 构建从PostgreSQL到Elasticsearch的准实时、最终一致性同步管道
我们面临一个在分布式系统中极为常见但又充满挑战的问题:如何维持一个事务型数据库(PostgreSQL)和一个搜索系统(Elasticsearch)之间的数据一致性。业务要求对数据的查询维度非常复杂,单纯依赖PostgreSQL的索引难以满足
2023-10-27
基于 Apache Flink 与 Clean Architecture 构建流式驱动的静态站点生成管道 基于 Apache Flink 与 Clean Architecture 构建流式驱动的静态站点生成管道
一个棘手的需求摆在面前:为高吞吐量的用户行为日志(每秒数万次页面浏览)构建一个近实时的监控仪表盘。传统方案,如使用ELK或直连时序数据库的前端轮询,因其高昂的实时查询成本和复杂的后端维护而被否决。我们的目标是极致的性能、低廉的成本和最小的运
2023-10-27
1 / 2