文件 | |
| 文件 | strings/combine.hpp |
| 用于拼接和连接的字符串 API。 | |
枚举 | |
| 枚举类 | cudf::strings::separator_on_nulls { cudf::strings::YES , cudf::strings::NO } |
| 用于指定如何处理带有空值字符串元素的分隔符的设置。 更多... | |
| 枚举类 | cudf::strings::output_if_empty_list { cudf::strings::EMPTY_STRING , cudf::strings::NULL_ELEMENT } |
用于指定当输入列表为空时,join_list_elements 函数将输出什么的设置。 更多... | |
|
strong |
用于指定当输入列表为空时,join_list_elements 函数将输出什么的设置。
| 枚举项 | |
|---|---|
| EMPTY_STRING | 空列表将导致空字符串。 |
| NULL_ELEMENT | 空列表将导致一个空值。 |
定义位于文件 strings/combine.hpp 的 47 行。
|
strong |
用于指定如何处理带有空值字符串元素的分隔符的设置。
| 枚举项 | |
|---|---|
| YES | 总是在元素之间添加分隔符。 |
| NO | 如果元素为空值,则不添加分隔符。 |
定义位于文件 strings/combine.hpp 的 38 行。
| std::unique_ptr<column> cudf::strings::concatenate | ( | table_view const & | strings_columns, |
| string_scalar const & | separator = string_scalar(""), |
||
| string_scalar const & | narep = string_scalar("", false), |
||
| separator_on_nulls | separate_nulls = separator_on_nulls::YES, |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
按行拼接给定的字符串列列表,并返回单个字符串列结果。
每个新字符串是通过拼接来自同一行(由提供的分隔符分隔)的字符串创建的。
任何包含空值条目的行都将导致相应的输出行为空值条目,除非指定了用于替换的 narep 字符串。
如果 separate_nulls 设置为 NO 并且 narep 有效,则在空值元素之间不添加分隔符。否则,如果 narep 有效,则总是添加分隔符。
输入 strings_columns 表中必须指定多于一列。
| cudf::logic_error | 如果输入列不全是字符串列。 |
| cudf::logic_error | 如果分隔符无效。 |
| cudf::logic_error | 如果只指定了一列 |
| strings_columns | 要拼接的字符串列列表 |
| separator | 应插入到每行每个字符串之间的字符串。默认为空字符串。 |
| narep | 用于替换任何列中找到的空值字符串的字符串。默认值为 invalid-scalar,表示任何列中的任何空值条目都将导致该行输出为空值结果。 |
| separate_nulls | 如果为 YES,则如果 narep 有效,包含空值的行也会包含分隔符 |
| stream | 用于设备内存操作和核函数启动的 CUDA 流 |
| mr | 用于分配返回列的设备内存的设备内存资源 |
| std::unique_ptr<column> cudf::strings::concatenate | ( | table_view const & | strings_columns, |
| strings_column_view const & | separators, | ||
| string_scalar const & | separator_narep = string_scalar("", false), |
||
| string_scalar const & | col_narep = string_scalar("", false), |
||
| separator_on_nulls | separate_nulls = separator_on_nulls::YES, |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
使用每行的分隔符,拼接字符串列列表,并将结果作为字符串列返回。
每个新字符串是通过拼接来自同一行(由该行提供的行分隔符分隔)的字符串创建的。以下规则适用:
separator_narepseparate_nulls 为 YES,则在两个输出行值之间应用分隔符;如果 separate_nulls 为 NO,则仅在有效行之间应用分隔符。separator_narep 和 col_narep 都有效,则输出列始终不可为空值。| cudf::logic_error | 如果未指定输入列 - 表视图为空 |
| cudf::logic_error | 如果输入列不全是字符串列。 |
| cudf::logic_error | 如果 separators 和 strings_columns 的行数不匹配 |
| strings_columns | 要拼接的字符串列列表 |
| separators | 提供给定行的分隔符的字符串列 |
| separator_narep | 用于替换给定行的空值分隔符的字符串。默认值为 invalid-scalar,表示不对行分隔符值进行替换。 |
| col_narep | 应替换任何列中找到的空值字符串的字符串。默认值为 invalid-scalar,表示不对空值列值进行替换。 |
| separate_nulls | 如果为 YES,则如果 col_narep 有效,包含空值的行也会包含分隔符。 |
| stream | 用于设备内存操作和核函数启动的 CUDA 流 |
| mr | 用于分配设备内存的资源 |
| std::unique_ptr<column> cudf::strings::join_list_elements | ( | lists_column_view const & | lists_strings_column, |
| string_scalar const & | separator = string_scalar(""), |
||
| string_scalar const & | narep = string_scalar("", false), |
||
| separator_on_nulls | separate_nulls = separator_on_nulls::YES, |
||
| output_if_empty_list | empty_list_policy = output_if_empty_list::EMPTY_STRING, |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
给定一个字符串列表列(每行是一个字符串列表),连接每行中的字符串并返回一个单字符串列结果。
每个新字符串是通过连接来自同一行(同一列表元素),并由提供的 separator 分隔的字符串创建的。
空值列表行总是会导致输出行为空值字符串。任何包含空值元素的非空值列表行将导致相应的输出行为空值,除非指定了用于替换的 narep 字符串。
如果 separate_nulls 设置为 NO 并且 narep 有效,则在空值元素之间不添加分隔符。否则,如果 narep 有效,则总是添加分隔符。
如果 empty_list_policy 设置为 EMPTY_STRING,则任何空列表行都将导致输出空字符串。否则,输出将为空值。
在输入列表行包含所有空值元素的特殊情况下,无论 narep 和 separate_nulls 的值如何,输出都将与输入空列表的情况相同。
| cudf::logic_error | 如果输入列不是字符串列表列。 |
| cudf::logic_error | 如果分隔符无效。 |
| lists_strings_column | 包含要连接的字符串列表的列 |
| separator | 应插入到每个列表行中字符串之间的字符串。默认为空字符串。 |
| narep | 用于替换任何非空列表行中空值字符串的字符串。默认值为 invalid-scalar,表示包含空值字符串的列表行将在相应的输出行中产生空值字符串。 |
| separate_nulls | 如果为 YES,则如果 narep 有效,包含空值的行也会包含分隔符 |
| empty_list_policy | 如果设置为 EMPTY_STRING,任何为空列表的输入行将产生一个空字符串。否则,将产生一个空值。 |
| stream | 用于设备内存操作和核函数启动的 CUDA 流 |
| mr | 用于分配返回列的设备内存的设备内存资源 |
| std::unique_ptr<column> cudf::strings::join_list_elements | ( | lists_column_view const & | lists_strings_column, |
| strings_column_view const & | separators, | ||
| string_scalar const & | separator_narep = string_scalar("", false), |
||
| string_scalar const & | string_narep = string_scalar("", false), |
||
| separator_on_nulls | separate_nulls = separator_on_nulls::YES, |
||
| output_if_empty_list | empty_list_policy = output_if_empty_list::EMPTY_STRING, |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
给定一个字符串列表列(每行是一个字符串列表),连接每行中的字符串并返回一个单字符串列结果。
每个新字符串是通过连接来自同一行(同一列表元素),并由 separators 字符串列中提供的行分隔符分隔的字符串创建的。
空值列表行总是会导致输出行为空值字符串。任何包含空值元素的非空值列表行将导致相应的输出行为空值,除非提供了有效的 string_narep 标量用于替换。separators 列中的任何空值行也将导致输出行为空值,除非提供了有效的 separator_narep 标量用于替换空值分隔符。
如果 separate_nulls 设置为 NO 并且 string_narep 有效,则在空值元素之间不添加分隔符。否则,如果 string_narep 有效,则总是添加分隔符。
如果 empty_list_policy 设置为 EMPTY_STRING,则任何空列表行都将导致输出空字符串。否则,输出将为空值。
在输入列表行包含所有空值元素的特殊情况下,无论 string_narep 和 separate_nulls 的值如何,输出都将与输入空列表的情况相同。
| cudf::logic_error | 如果输入列不是字符串列表列。 |
| cudf::logic_error | 如果 separators 和 lists_strings_column 的行数不匹配 |
| lists_strings_column | 包含要连接的字符串列表的列 |
| separators | 提供用于连接的分隔符的字符串列 |
| separator_narep | 应用于替换空值分隔符的字符串。默认值为 invalid-scalar,表示包含空值分隔符的行将在相应的输出行中产生空值字符串。 |
| string_narep | 用于替换任何非空列表行中空值字符串的字符串。默认值为 invalid-scalar,表示包含空值字符串的列表行将在相应的输出行中产生空值字符串。 |
| separate_nulls | 如果为 YES,则如果 narep 有效,包含空值的行也会包含分隔符 |
| empty_list_policy | 如果设置为 EMPTY_STRING,任何为空列表的输入行将产生一个空字符串。否则,将产生一个空值。 |
| stream | 用于设备内存操作和核函数启动的 CUDA 流 |
| mr | 用于分配返回列的设备内存的设备内存资源 |
| std::unique_ptr<column> cudf::strings::join_strings | ( | strings_column_view const & | input, |
| string_scalar const & | separator = string_scalar(""), |
||
| string_scalar const & | narep = string_scalar("", false), |
||
| rmm::cuda_stream_view | stream = cudf::get_default_stream(), |
||
| rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
| ) |
将列中的所有字符串拼接成一个新字符串,通过可选的分隔符字符串进行分隔。
这将返回一个包含一个字符串的列。任何空值条目都将被忽略,除非 narep 参数指定了替换字符串。
| cudf::logic_error | 如果分隔符无效。 |
| input | 用于此操作的字符串 |
| separator | 应插入到每个字符串之间的字符串。默认为空字符串。 |
| narep | 用于替换找到的任何空值字符串的字符串。默认值为 invalid-scalar,将忽略任何空值条目。 |
| stream | 用于设备内存操作和核函数启动的 CUDA 流 |
| mr | 用于分配返回列的设备内存的设备内存资源。 |