文本#

class pylibcudf.io.text.DataChunkSource#

`multibyte_split`的数据源

参数:
datastr

文件名或数据本身。

class pylibcudf.io.text.ParseOptions(byte_range=None, *, strip_delimiters=False)#

`multibyte_split`的解析选项

参数:
byte_range列表 | 元组,默认 None

只有在此字节范围内的行会成为输出列的一部分。

strip_delimitersbool,默认 True

是否应从输出列中去除行末的分隔符。

pylibcudf.io.text.make_source(unicode data) DataChunkSource#

创建一个能够为给定字符串生成设备缓冲视图的数据源。

参数:
datastr

要作为数据块源公开的主机数据。

返回:
DataChunkSource

为提供的主机数据创建的数据块源。

pylibcudf.io.text.make_source_from_bgzip_file(unicode filename, int virtual_begin=-1, int virtual_end=-1) DataChunkSource#

创建一个能够为带有虚拟记录偏移量的BGZIP压缩文件生成设备缓冲视图的数据源。

参数:
filenamestr

要作为数据块源公开的BGZIP压缩文件的文件名。

virtual_beginint

要读取的第一个字节的虚拟 (Tabix) 偏移量。其高 48 位描述了在压缩文件中的偏移量,其低 16 位描述了块内的偏移量。

virtual_endint,默认 None

要读取的最后一个字节之后一个位置的虚拟 (Tabix) 偏移量

返回:
DataChunkSource

为提供的文件名创建的数据块源。

pylibcudf.io.text.make_source_from_file(unicode filename) DataChunkSource#

创建一个能够为文件生成设备缓冲视图的数据源。

参数:
filenamestr

要作为数据块源公开的文件名。

返回:
DataChunkSource

为提供的文件名创建的数据块源。

pylibcudf.io.text.multibyte_split(DataChunkSource source, unicode delimiter, ParseOptions options=None) Column#

使用多字节分隔符将源文本分割成一个字符串列。

更多详情,请参阅 cudf::io::text::multibyte_split()

参数:
source

源字符串。

delimiterstr

用于在源中查找偏移量的 UTF-8 编码字符串。

optionsParseOptions

要使用的解析选项(包括字节范围)。

返回:
Column

通过在相关字节范围内使用分隔符分割源找到的字符串。