Hardwood 1.0发布:零强制依赖,高速处理Apache Parquet文件
[BT](https://www.infoq.com/int/bt/ "bt") ## InfoQ 软件架构师月刊 每月一期的概览,涵盖架构师或有志成为架构师的人士需要了解的内容。 [查看示例](https://www.infoq.com/software-architects-newsletter#placeholderPastIssues) 输入您的邮箱地址 选择您的国家 - [x] 我同意 InfoQ.com 根据本 [隐私声明](https://www.infoq.com/privacy-notice) 处理我的数据。 [我们保护您的隐私。](https://www.infoq.com/privacy-notice/) 关闭 在线 InfoQ AI 工程认证(7月25日):与面临类似约束的高级同行一起,完善您的生产级 AI 决策。 [立即注册](https://www.infoq.com/url/pb/a2f9f71e-1fe6-4ebe-b6ca-dcd1a093a52d/) 关闭 切换导航 促进专业软件开发领域知识与创新的传播 英文版 * [英文版](https://www.infoq.com/news/2026/07/hardwood-java-parquet/#) * [中文版](https://www.infoq.cn/) * [日文版](https://www.infoq.com/jp/) * [法文版](https://www.infoq.com/fr/) [为 InfoQ 撰稿](https://www.infoq.com/write-for-infoq/ "为 InfoQ 撰稿") 搜索 [注册](https://www.infoq.com/reginit.action?)\[登录\](https://www.infoq.com/social/keycloakLogin.action?fl=login) ## 解锁完整的 InfoQ 体验 登录以解锁完整的 InfoQ 体验!及时了解您喜爱的作者和主题,参与内容互动,并下载独家资源。 [登录](https://www.infoq.com/social/keycloakLogin.action?fl=login) 或 ### 还没有 InfoQ 账户? [注册](https://www.infoq.com/reginit.action?) * **及时了解您关注的主题和同行** 即时接收最新见解和趋势的提醒。 * **快速访问免费资源,实现持续学习** 迷你书、带文字记录的视频及培训材料。 * **保存文章,随时阅读** 收藏文章,方便日后阅读。 [Logo - 返回首页](https://www.infoq.com/) [新闻](https://www.infoq.com/news/)\[文章\](https://www.infoq.com/articles/)\\[演讲\](https://www.infoq.com/presentations/)\[播客\](https://www.infoq.com/podcasts/)\[指南\](https://www.infoq.com/minibooks/) ### 主题 [开发](https://www.infoq.com/development/ "开发") * [Java](https://www.infoq.com/java/ "Java") * [Kotlin](https://www.infoq.com/kotlin/ "Kotlin") * [.Net](https://www.infoq.com/dotnet/ ".Net") * [C#](https://www.infoq.com/c_sharp/ "C#") * [Swift](https://www.infoq.com/swift/ "Swift") * [Go](https://www.infoq.com/golang/ "Go") * [Rust](https://www.infoq.com/rust/ "Rust") * [JavaScript](https://www.infoq.com/javascript/ "JavaScript") ### 开发领域精选 * #### [百万级 PDF:使用 Rust 和 Typst 构建现代文档基础设施](https://www.infoq.com/presentations/document-infrastructure-rust-typst) Erik Steiger 讨论了在受监管的银行和制造业中,传统 PDF 生成带来的运维之痛。他解释了如何从资源密集型引擎(如 Puppeteer 和 LaTeX)迁移到由 Typst 驱动的无服务器 Rust 架构,从而将渲染延迟降至 2ms 以下。他分享了如何将 Git 和 Docker 的概念应用于模板注册表,以确保坚如磐石的合规性和快速调试。 [/presentations/document-infrastructure-rust-typst/en/smallimage/ErikSteiger-thumbnail-1782220478687.jpg)\](https://www.infoq.com/presentations/document-infrastructure-rust-typst) [查看所有开发内容](https://www.infoq.com/development/)关注主题 [架构与设计](https://www.infoq.com/architecture-design/ "架构与设计") * [架构](https://www.infoq.com/architecture/ "架构") * [企业架构](https://www.infoq.com/enterprise-architecture/ "企业架构") * [可扩展性/性能](https://www.infoq.com/performance-scalability/ "可扩展性/性能") * [设计](https://www.infoq.com/design/ "设计") * [案例研究](https://www.infoq.com/Case_Study/ "案例研究") * [微服务](https://www.infoq.com/microservices/ "微服务") * [服务网格](https://www.infoq.com/servicemesh/ "服务网格") * [模式](https://www.infoq.com/DesignPattern/ "模式") * [安全](https://www.infoq.com/Security/ "安全") ### 架构与设计领域精选 * #### [智能体 AI 架构](https://www.infoq.com/minibooks/agentic-ai-architecture) 在本电子书中,我们试图将智能体 AI 架构确立为一种新型软件架构,它很可能在未来数年主导行业。这些文章由行业专家撰写,涵盖了智能体 AI 架构的各个元素和方面。我们旨在呈现随着这一新型架构进入主流,塑造它的最新趋势和发展。 [/minibooks/agentic-ai-architecture/en/smallimage/agentic-ai-architecture-thumb-image-1782836155225.jpg)\](https://www.infoq.com/minibooks/agentic-ai-architecture) [查看所有架构与设计内容](https://www.infoq.com/architecture-design/)关注主题 [AI 基础设施](https://www.infoq.com/ai-ml-data-eng/ "AI 基础设施") * [大数据](https://www.infoq.com/bigdata/ "大数据") * [机器学习](https://www.infoq.com/machinelearning/ "机器学习") * [NoSQL](https://www.infoq.com/nosql/ "NoSQL") * [数据库](https://www.infoq.com/database/ "数据库") * [数据分析](https://www.infoq.com/data-analytics/ "数据分析") * [流处理](https://www.infoq.com/streaming/ "流处理") ### AI、机器学习与数据工程领域精选 * #### [微调企业级应用:强化学习实践](https://www.infoq.com/presentations/rft-openai-model) 演讲者讨论了 Agent RFT,即 OpenAI 用于通过实时工具交互和自定义奖励信号微调推理模型的平台。他们解释了强化学习如何解决上下文窗口内的复杂信用分配问题。他们分享了企业成功案例,展示了 Agent RFT 如何消除长尾令牌循环并推动极致效率。 [/presentations/rft-openai-model/en/smallimage/WenjieZiWillHang-thumbnail-1782220624463.jpg)\](https://www.infoq.com/presentations/rft-openai-model) [查看所有 AI、机器学习与数据工程内容](https://www.infoq.com/ai-ml-data-eng/)关注主题 [文化与方法](https://www.infoq.com/culture-methods/ "文化与方法") * [敏捷](https://www.infoq.com/agile/ "敏捷") * [多元化](https://www.infoq.com/diversity/ "多元化") * [领导力](https://www.infoq.com/leadership/ "领导力") * [精益/看板](https://www.infoq.com/lean/ "精益/看板") * [个人成长](https://www.infoq.com/personal-growth/ "个人成长") * [Scrum](https://www.infoq.com/scrum/ "Scrum") * [合弄制](https://www.infoq.com/sociocracy/ "合弄制") * [软件工艺](https://www.infoq.com/software_craftsmanship/ "软件工艺") * [团队协作](https://www.infoq.com/team-collaboration/ "团队协作") * [测试](https://www.infoq.com/testing/ "测试") * [用户体验](https://www.infoq.com/ux/ "用户体验") ### 文化与方法领域精选 * #### [Craig McLuckie:AI 时代文化如何成为团队的操作系统](https://www.infoq.com/podcasts/team-operating-system-ai-era) 在本期播客中,文化与方法栏目主编 Shane Hastie 与 Kubernetes 联合创始人兼 Stacklok 首席执行官 Craig McLuckie 进行了对话,讨论了 AI 编码工具对开源社区和工程团队的影响、如何设计有目的的组织文化,以及 AI 时代工程师职业发展路径的演变。 [/podcasts/team-operating-system-ai-era/en/smallimage/engineering-culture-podcast-thumbnail-1780644878321.jpg)\](https://www.infoq.com/podcasts/team-operating-system-ai-era) [查看所有文化与方法内容](https://www.infoq.com/culture-methods/)关注主题 [DevOps](https://www.infoq.com/devops/) * [基础设施](https://www.infoq.com/infrastructure/ "基础设施") * [持续交付](https://www.infoq.com/continuous_delivery/ "持续交付") * [自动化](https://www.infoq.com/automation/ "自动化") * [容器](https://www.infoq.com/containers/ "容器") * [云](https://www.infoq.com/cloud-computing/ "云") * [可观测性](https://www.infoq.com/observability/ "可观测性") ### DevOps 领域精选 * #### [那次不是 DNS 的问题](https://www.infoq.com/presentations/incident-dns) Sean Klein 讨论了为什么“人为错误”在复杂系统中是一个危险的神话。通过分享 Azure 2023 年全球 WAN 中断的内幕故事,他解释了现代事件分析如何超越“五个为什么”来揭示系统性问题。了解工程领导者如何摆脱指责、改进标准操作程序,并设计能够主动保护工程师的弹性系统。 [/presentations/incident-dns/en/smallimage/sean-klein-thumbnail-1781687984845.jpeg)\](https://www.infoq.com/presentations/incident-dns) [查看所有 DevOps 内容](https://www.infoq.com/devops/)关注主题 [活动](https://events.infoq.com/ "活动") ### 实用链接 * [关于 InfoQ](https://www.infoq.com/about-infoq "关于 InfoQ") * [InfoQ 编辑团队](https://www.infoq.com/infoq-editors "InfoQ 编辑团队") * [为 InfoQ 撰稿](https://www.infoq.com/write-for-infoq "为 InfoQ 撰稿") * [关于 C4Media](https://c4media.com/ "关于 C4Media") * [多元化](https://c4media.com/diversity "多元化") ### 选择语言 * [英文](https://www.infoq.com/news/2026/07/hardwood-java-parquet/# "InfoQ 英文版") * [中文](https://www.infoq.cn/) * [日文](https://www.infoq.com/jp/) * [法文](https://www.infoq.com/fr/) [2026年7月25日 AI 工程认证:生产级 AI 需要检索、智能体、评估和基础设施,与同行一起检验。**在线。立即注册。**](https://certification.qconferences.com/ai-engineering?utm_source=infoq\&utm_medium=referral\&utm_campaign=homepageheader_onlinecohortaijuly26) [2026年8月26日 AI 安全与隐私工程认证:保护和管理生产级 AI 系统,涵盖敏感数据、护栏、评估和审计。**在线。立即注册。**](https://certification.qconferences.com/ai-security-privacy?utm_source=infoq\&utm_medium=referral\&utm_campaign=homepageheader_onlinecohortaisecurity26) [2026年11月16-20日 QCon 旧金山:来自一线团队的 AI、架构和领导力实战经验。**注册。早鸟价截止至7月14日。**](https://qconsf.com/?utm_source=infoq\&utm_medium=referral\&utm_campaign=homepageheader_qsf26) [2027年4月13-16日 QCon 伦敦:早期采用团队在生产中验证的内容,涵盖15个工程方向。**注册。早鸟价截止至7月14日。**](https://qconlondon.com/?utm_source=infoq\&utm_medium=referral\&utm_campaign=homepageheader_qconlondon27) [InfoQ 首页](https://www.infoq.com/ "InfoQ 首页")[新闻](https://www.infoq.com/news "新闻")Hardwood 宣称能实现高速 JVM Apache Parquet 处理且零强制依赖 [Java](https://www.infoq.com/java/ "Java") [InfoQ AI 工程认证(7月25日):AI 演示成功了。现在你需要让它变得可靠。](https://certification.qconferences.com/ai-engineering?utm_source=infoq\&utm_medium=referral\&utm_campaign=infoqyellowbox_onlinecohortaijuly26) # Hardwood 宣称能实现高速 JVM Apache Parquet 处理且零强制依赖 2026年7月3日 3分钟阅读 作者 * [作者头像](https://cdn.infoq.com/statics_s1_20260630130228/images/profiles/xdEJUM0sXSfDbXIFRMaailphJmX1ZcmX.jpg)\[Olimpiu Pop](https://www.infoq.com/profile/Olimpiu-Pop/) 关注 技术与工程高管,专注于整体方法 ##### 关注我们 [YouTube 23.2万关注者](https://bit.ly/4bg6QM8)\[LinkedIn 2.6万关注者](https://bit.ly/44IzAtf)\[Instagram 新](https://bit.ly/4eYXrtM)\[RSS 1.9万读者](https://bit.ly/3RaJalC)\[X 5.71万关注者](https://bit.ly/4pfxivv)\[Facebook 2.1万点赞](https://bit.ly/3QrGMH2)\[Bluesky 新](https://bit.ly/4eS8FjG) 登录后收听本文 加载音频 [音频](https://www.infoq.com/news/2026/07/hardwood-java-parquet/) 0:00 0:00 正常 1.25倍 1.5倍 喜欢 * [阅读列表](https://www.infoq.com/showbookmarks.action) [Hardwood](https://github.com/gunnarmorling/hardwood) 已作为开源库发布,旨在优化 JVM 环境下对 [Apache Parquet](https://parquet.apache.org/) 文件的读取。该项目由 Gunnar Morling 发起,目标是在传统 [Apache Parquet Java 实现](https://github.com/apache/parquet-java) 基础上提供更快、更简单的替代方案——传统实现往往引入大量依赖开销,且核心读取器为单线程。Hardwood 通过提供几乎零依赖的替代方案,并利用多线程页面解码最大化 CPU 利用率,解决了这些限制。自 [2026 年初启动](https://www.morling.dev/blog/hardwood-new-parser-for-apache-parquet/) 五个月后,该项目 [已发布 1.0 版本](https://www.morling.dev/blog/hardwood-1-0-fast-lightweight-apache-parquet-reader-for-the-jvm/),目前提供读取功能,写入支持计划在后续版本中推出。 Hardwood 的设计强调数据访问的模块化。它提供两种不同的 API 以满足不同的工程需求:一种用于通用记录访问的 [行读取器 API],以及一种面向高吞吐量分析工作负载的批处理 [列读取器 API]。传统实现按顺序处理数据,而 Hardwood 则将 Parquet 页面解码分散到所有可用的 CPU 核心上,从而减少了通常与串行页面处理相关的延迟。 行读取器代码: java try (ParquetFileReader fileReader = ParquetFileReader.open( InputFile.of(path)); RowReader rowReader = fileReader.rowReader()) { while (rowReader.hasNext()) { rowReader.next(); long id = rowReader.getLong("id"); String name = rowReader.getString("name"); LocalDate birthDate = rowReader.getDate("birth_date"); Instant createdAt = rowReader.getTimestamp("created_at"); } } 该库采用零强制依赖的设计,以最小化供应链攻击和类路径冲突的风险。为此,它利用了 Java 9 以来可用的最小日志抽象,有效避免了外部日志记录依赖。额外的功能,如对 LZ4、GZip 等特定压缩算法或 S3 等对象存储服务的支持,通过可选依赖提供,用户可根据需要引入。 它还实现了优化的谓词求值。通过在过滤扫描期间采用无分支、批量求值的方式,系统最大限度地减少了 CPU 分支预测失败,这在现代分析数据处理中是一个关键性能因素。 除了库本身,该项目还包含一个为开发者和数据工程师设计的命令行界面 (CLI) 工具。该 CLI 具有交互式文本用户界面 (TUI),允许用户在不编写样板代码或引入重量级数据处理框架的情况下检查 Parquet 文件模式和元数据。该工具可用作开发周期中验证文件完整性和结构的诊断工具。 [基准测试结果] 表明,Hardwood 相比标准实现实现了显著的吞吐量提升。在 8 个 vCPU 的平面数据集扫描中,读取器达到了每秒 1650 万行的吞吐量。性能优势主要归功于该库能够随可用硬件扩展。在单线程配置下,性能受限于顺序解码;而多线程方法使系统能够更有效地饱和宿主机器的 I/O 和 CPU 带宽。 Hardwood 通过其模块化设计、高性能、多线程解码以及简化依赖管理的零强制依赖配置,为 JVM 环境带来了显著优势。除了发起人 Gunnar Morling 之外,该项目已吸引了 20 名开源贡献者,其中包括来自 Java 领域的资深贡献者,如 Andres Almiray 和 Bruno Borges。来自社区的广泛反馈大多是积极的,潜在用户也提出希望支持 Parquet 写入功能。这一增强功能已列入即将发布的路线图,预计很快可用。 Hardwood 1.0 标志着高性能 JVM 数据处理的一个重要里程碑,从构思到第一个稳定版本仅用了五个月。开发过程使用了 AI 辅助编码,但设计和代码审查过程仍由人类主导。通过提供零依赖架构和创新的多线程解码引擎,该项目为传统 Parquet 实现提供了一种轻量级而强大的替代方案。凭借其模块化设计和清晰的未来写入支持路线图,Hardwood 有望成为在分析工作负载中追求资源效率最大化的数据工程师的基础工具。 ## 关于作者 [作者头像](https://cdn.infoq.com/statics_s1_20260630130228/images/profiles/xdEJUM0sXSfDbXIFRMaailphJmX1ZcmX.jpg) #### **Olimpiu Pop** 技术与工程高管,专注于整体方法,利用技术为现实问题提供解决方案,并尽量减少对环境的影响。他拥有从金融软件到 IAM 等实时应用开发经验。热衷于工具和优化开发流程(无论是否使用 AI)。曾领导并塑造数百名开发者(从支持工程师到架构师)的技术组织。技术社区建设者:Transylvania JUG 推动者、Voxxed Romania 和 Devoxx UK 项目委员会成员、会议演讲者,以及 505updates.com 关于网络安全和开源主题的播客主持人。JavaAdventCalendar 的主要编辑和麻烦制造者。#### 此内容位于 Java 话题 关注话题
相关话题
- 开发
开发 关注者:4125 关注话题
- AI、机器学习与数据工程
AI、机器学习与数据工程 关注者:5974 关注话题
- 大数据
大数据 关注者:461 关注话题
- Apache Parquet
Apache Parquet 关注者:0 关注话题
- Java
Java 关注者:4925 关注话题
Java 热门内容
-
Java 新闻周报:Spring Tools、Helidon、Open Liberty、TomEE、JobRunr、Hibernate、Commonhaus
-
扩展基于 Java 的实时系统:事件驱动设计的隐藏权衡
-
Java 新闻周报:Hardwood 1.0、Endive 1.0、Azul Payara、Quarkus、WildFly、LangChain4j、OSSI
-
Eliya 25 为 OpenJDK 25 LTS 带来 JVM 级诊断配置文件
-
幕后:将 450 个 JVM 仓库整合为 Monorepo 以减少依赖漂移
相关赞助商
-
从日志噪声到事件情报:AI 辅助可观测性的成熟度模型 – 立即报名
-
Gartner® 研究:云平台服务技术成熟度曲线,2025
-
MCP 内部:AI 集成协议
-
AI 云基础设施报告:大规模构建 AI 就绪平台
-
2026 年降低 Java 成本而不影响交付速度
相关赞助商
- 2026 年 7 月 9 日,美国东部时间中午 12 点
从日志噪声到事件情报:AI 辅助可观测性的成熟度模型
主讲人:Nicolas Jung – Datadog 日志产品经理
由 Datadog 赞助
立即报名
相关内容
-
Java 新闻周报:Hardwood 1.0、Endive 1.0、Azul Payara、Quarkus、WildFly、LangChain4j、OSSI – 2026年6月29日
-
Eliya 25 为 OpenJDK 25 LTS 带来 JVM 级诊断配置文件 – 2026年6月29日
-
Java 新闻周报:Spring Tools、Helidon、Open Liberty、TomEE、JobRunr、Hibernate、Commonhaus – 2026年6月22日
-
幕后:将 450 个 JVM 仓库整合为 Monorepo 以减少依赖漂移 – 2026年6月19日
-
Java 新闻周报:A2A Java SDK 1.0、Jakarta EE 12、JNoSQL、GraalVM、Micrometer、OpenXava、Gradle – 2026年6月16日
-
Spring 新闻周报:Boot、Security、Integration、Modulith 点版本更新及 Spring AI 2.0 – 2026年6月15日
-
Spring Boot 4.1 新增 gRPC 自动配置、SSRF 防护及 Kotlin 2.3 支持 – 2026年6月15日
-
Pinecone 通过 Microsoft OneLake 集成将 AI 代理直接带入企业数据 – 2026年6月12日
-
Oracle 的 OpenJDK 禁止生成式 AI 贡献,而 Oracle 的 GraalVM 允许 – 2026年6月12日
相关赞助商
-
构建高风险事件响应的 AI 代理评估(2026年8月6日在线研讨会)– 立即报名
AI 代理正在改变事件响应,但其非确定性行为使得质量难以衡量。了解 Datadog 如何构建一个评估平台,用于评估高风险代理在生产中的推理、工具使用和结果。- 由 Datadog 赞助
相关内容
-
扩展基于 Java 的实时系统:事件驱动设计的隐藏权衡 – 2026年6月30日
-
Java 新闻周报:JDK 27 进入降速阶段,JDK 28 专家组成立,GlassFish、Infinispan、Kotlin – 2026年6月8日
-
庆祝 InfoQ 成立 20 周年 – 2026年6月8日
-
AWS 上 Serverless Java 的实用性能调优 – 2026年6月15日
-
技术采用曲线,二十年之后 – 2026年6月8日
-
Kafka 和 Flink 管道中的模式激增问题:如何解决 – 2026年5月25日
InfoQ 新闻简报
每周二发送,汇总 InfoQ 上周内容。加入超过 25 万高级开发者的社区。查看示例
输入您的电子邮箱地址
选择您的国家
InfoQ 新闻简报
每周二发送,汇总 InfoQ 上周内容。加入超过 25 万高级开发者的社区。查看示例
- 快速了解多个创新者和早期采纳技术的内容概览
- 了解您不知道自己不知道的内容
- 及时获取您感兴趣话题的最新信息
输入您的电子邮箱地址
选择您的国家
[InfoQ 在线认证课程 面向高级工程师、架构师和技术领导者]
- AI 工程 与 Hien Luu | 7月25日
- 架构师 与 Luca Mezzalira | 8月13日
- AI 安全与隐私工程 与 Katharine Jarmul | 8月26日
随着职位提升,工作内容也随之改变。你不再仅仅是执行决策,而是塑造其他团队所依赖的系统、权衡和技术方向。这些为期5周的在线课程为你提供了一种结构化方式,让你与来自其他公司的高级同行一起,在你当前职位上处理真实的决策。
立即报名 在线直播。每周4小时,共5周。
首页 创建账户 登录 QCon 会议 活动 为 InfoQ 撰稿 InfoQ 编辑 关于 InfoQ 关于 C4Media 媒体工具包 InfoQ 开发者营销博客 多元化
活动
-
在线 InfoQ AI 工程认证 – 2026年7月25日
-
在线 InfoQ 架构师认证 – 2026年8月13日
-
在线 InfoQ AI 安全与隐私工程课程 – 2026年8月26日
-
QCon 旧金山 – 2026年11月16-20日
-
QCon 伦敦 2027 – 2027年4月13-16日
关注我们
Youtube 23.2万关注者 LinkedIn 2.6万关注者 Instagram 新 RSS 1.9万读者 X 5.71万关注者 Facebook 2.1万赞 Bluesky 新
保持关注
The InfoQ Podcast!
Engineering Culture Podcast!
The Software Architects' Newsletter!
一般反馈:feedback@infoq.com
广告:sales@infoq.com
编辑:editors@infoq.com
营销:marketing@infoq.com
InfoQ.com 及所有内容版权 © 2006-2026 C4Media Inc.
隐私声明,条款与条件,Cookie 政策
关闭 BT