在大数据时代,Apache Parquet作为一个高效的列式存储格式,广泛应用于数据分析和处理。然而,最近在Apache Parquet Java中发现了一个高严重性漏洞(CVE-2025-46762),这对使用parquet-avro模块的系统构成了严重的远程代码执行(RCE)风险。该漏洞由Apache Parquet的贡献者 ...
Apache Parquet 贡献者 Gang Wu 于 2025 年 5 月 2 日披露了该漏洞,该漏洞影响了 1.15.1 及以下版本。 漏洞的技术细分 该漏洞源于 parquet-avro 模块中不安全的架构解析。攻击者可以在 Parquet 文件元数据中嵌入恶意代码,当易受攻击的系统读取文件的 Avro 架构时,该元数据 ...
java常见文件服务实现,封装统一常用 RESTful API,针对各文件服务特性提供特性service。 文件服务实现有很多种(本地存储、Minio、云存储等),每种类型除了支持正常上传、下载、预览、删除外。还提供了一些其他特性,并不希望我们的文件服务变得只支持通用 ...
我们只有一个 Parquet 文件(小于 HDFS block size), 但是 Spark 在某个 stage 生成了4个 tasks 来处理. 4个 tasks 中只有一个 task 处理了所有数据, 其他几个都没有在处理数据. 这两个问题牵涉到对于 Parquet, Spark 是如何来进行切分 partitions, 以及每个 partition 要处理哪部分数据的.