输入/输出#

CSV#

read_csv(filepath_or_buffer[, sep, ...])

将逗号分隔值 (CSV) 数据集加载到 DataFrame 中

DataFrame.to_csv([path_or_buf, sep, na_rep, ...])

将 DataFrame 写入 CSV 文件格式。

文本#

read_text(filepath_or_buffer[, delimiter, ...])

文本数据源的配置对象

JSON#

read_json(path_or_buf[, engine, orient, ...])

将 JSON 数据集加载到 DataFrame 中

DataFrame.to_json([path_or_buf])

将 cuDF 对象转换为 JSON 字符串。

Parquet#

read_parquet(filepath_or_buffer[, engine, ...])

将 Parquet 数据集加载到 DataFrame 中

DataFrame.to_parquet(path[, engine, ...])

将 DataFrame 写入 Parquet 格式。

io.parquet.read_parquet_metadata(...)

读取 Parquet 文件的元数据和 schema

io.parquet.ParquetDatasetWriter(path, ...[, ...])

增量写入 Parquet 文件或数据集

io.parquet.ParquetDatasetWriter.close([...])

关闭所有打开的文件,并可选择将页脚元数据作为二进制 Blob 返回

io.parquet.ParquetDatasetWriter.write_table(df)

将 DataFrame 写入文件/数据集

ORC#

read_orc(filepath_or_buffer[, engine, ...])

将 ORC 数据集加载到 DataFrame 中

DataFrame.to_orc(fname[, compression, ...])

将 DataFrame 写入 ORC 格式。

HDFStore: PyTables (HDF5)#

read_hdf(path_or_buf, *args, **kwargs)

从存储读取,如果打开了则关闭。

DataFrame.to_hdf(path_or_buf, key, *args, ...)

使用 HDFStore 将包含的数据写入 HDF5 文件。

警告

HDF 读取器和写入器未进行 GPU 加速。目前它们通过 Pandas 使用 CPU。未来可能会实现 GPU 加速。

Feather#

read_feather(path, *args, **kwargs)

从文件路径加载 Feather 对象,返回一个 DataFrame。

DataFrame.to_feather(path, *args, **kwargs)

将 DataFrame 写入 Feather 格式。

警告

Feather 读取器和写入器未进行 GPU 加速。目前它们通过 Pandas 使用 CPU。未来可能会实现 GPU 加速。

Avro#

read_avro(filepath_or_buffer[, columns, ...])

将 Avro 数据集加载到 DataFrame 中