在大数据时代,Apache Parquet作为一个高效的列式存储格式,广泛应用于数据分析和处理。然而,最近在Apache Parquet Java中发现了一个高严重性漏洞(CVE-2025-46762),这对使用parquet-avro模块的系统构成了严重的远程代码执行(RCE)风险。该漏洞由Apache Parquet的贡献者 ...
Apache Parquet 贡献者 Gang Wu 于 2025 年 5 月 2 日披露了该漏洞,该漏洞影响了 1.15.1 及以下版本。 漏洞的技术细分 该漏洞源于 parquet-avro 模块中不安全的架构解析。攻击者可以在 Parquet 文件元数据中嵌入恶意代码,当易受攻击的系统读取文件的 Avro 架构时,该元数据 ...
java常见文件服务实现,封装统一常用 RESTful API,针对各文件服务特性提供特性service。 文件服务实现有很多种(本地存储、Minio、云存储等),每种类型除了支持正常上传、下载、预览、删除外。还提供了一些其他特性,并不希望我们的文件服务变得只支持通用 ...
我们只有一个 Parquet 文件(小于 HDFS block size), 但是 Spark 在某个 stage 生成了4个 tasks 来处理. 4个 tasks 中只有一个 task 处理了所有数据, 其他几个都没有在处理数据. 这两个问题牵涉到对于 Parquet, Spark 是如何来进行切分 partitions, 以及每个 partition 要处理哪部分数据的.
一些您可能无法访问的结果已被隐去。
显示无法访问的结果