文本#
- class pylibcudf.io.text.DataChunkSource#
`multibyte_split`的数据源
- 参数:
- datastr
文件名或数据本身。
- class pylibcudf.io.text.ParseOptions(byte_range=None, *, strip_delimiters=False)#
`multibyte_split`的解析选项
- 参数:
- byte_range列表 | 元组,默认 None
只有在此字节范围内的行会成为输出列的一部分。
- strip_delimitersbool,默认 True
是否应从输出列中去除行末的分隔符。
- pylibcudf.io.text.make_source(unicode data) DataChunkSource #
创建一个能够为给定字符串生成设备缓冲视图的数据源。
- 参数:
- datastr
要作为数据块源公开的主机数据。
- 返回:
- DataChunkSource
为提供的主机数据创建的数据块源。
- pylibcudf.io.text.make_source_from_bgzip_file(unicode filename, int virtual_begin=-1, int virtual_end=-1) DataChunkSource #
创建一个能够为带有虚拟记录偏移量的BGZIP压缩文件生成设备缓冲视图的数据源。
- 参数:
- filenamestr
要作为数据块源公开的BGZIP压缩文件的文件名。
- virtual_beginint
要读取的第一个字节的虚拟 (Tabix) 偏移量。其高 48 位描述了在压缩文件中的偏移量,其低 16 位描述了块内的偏移量。
- virtual_endint,默认 None
要读取的最后一个字节之后一个位置的虚拟 (Tabix) 偏移量
- 返回:
- DataChunkSource
为提供的文件名创建的数据块源。
- pylibcudf.io.text.make_source_from_file(unicode filename) DataChunkSource #
创建一个能够为文件生成设备缓冲视图的数据源。
- 参数:
- filenamestr
要作为数据块源公开的文件名。
- 返回:
- DataChunkSource
为提供的文件名创建的数据块源。
- pylibcudf.io.text.multibyte_split(DataChunkSource source, unicode delimiter, ParseOptions options=None) Column #
使用多字节分隔符将源文本分割成一个字符串列。
更多详情,请参阅
cudf::io::text::multibyte_split()
- 参数:
- source
源字符串。
- delimiterstr
用于在源中查找偏移量的 UTF-8 编码字符串。
- optionsParseOptions
要使用的解析选项(包括字节范围)。
- 返回:
- Column
通过在相关字节范围内使用分隔符分割源找到的字符串。