文本#

class pylibcudf.io.text.DataChunkSource#

`multibyte_split`的数据源

参数：

class pylibcudf.io.text.ParseOptions(byte_range=None, *, strip_delimiters=False)#

`multibyte_split`的解析选项

参数：

pylibcudf.io.text.make_source(unicode data) → DataChunkSource#

创建一个能够为给定字符串生成设备缓冲视图的数据源。

参数：

返回：

pylibcudf.io.text.make_source_from_bgzip_file(unicode filename, int virtual_begin=-1, int virtual_end=-1) → DataChunkSource#

创建一个能够为带有虚拟记录偏移量的BGZIP压缩文件生成设备缓冲视图的数据源。

参数：

filenamestr: 要作为数据块源公开的BGZIP压缩文件的文件名。
virtual_beginint: 要读取的第一个字节的虚拟 (Tabix) 偏移量。其高 48 位描述了在压缩文件中的偏移量，其低 16 位描述了块内的偏移量。
virtual_endint，默认 None: 要读取的最后一个字节之后一个位置的虚拟 (Tabix) 偏移量

返回：

pylibcudf.io.text.make_source_from_file(unicode filename) → DataChunkSource#

创建一个能够为文件生成设备缓冲视图的数据源。

参数：

返回：

pylibcudf.io.text.multibyte_split(DataChunkSource source, unicode delimiter, ParseOptions options=None) → Column#

使用多字节分隔符将源文本分割成一个字符串列。

参数：

返回：