文件 | |
文件 | strings/combine.hpp |
用于拼接和连接的字符串 API。 | |
枚举 | |
枚举类 | cudf::strings::separator_on_nulls { cudf::strings::YES , cudf::strings::NO } |
用于指定如何处理带有空值字符串元素的分隔符的设置。 更多... | |
枚举类 | cudf::strings::output_if_empty_list { cudf::strings::EMPTY_STRING , cudf::strings::NULL_ELEMENT } |
用于指定当输入列表为空时,join_list_elements 函数将输出什么的设置。 更多... | |
|
strong |
用于指定当输入列表为空时,join_list_elements
函数将输出什么的设置。
枚举项 | |
---|---|
EMPTY_STRING | 空列表将导致空字符串。 |
NULL_ELEMENT | 空列表将导致一个空值。 |
定义位于文件 strings/combine.hpp 的 47 行。
|
strong |
用于指定如何处理带有空值字符串元素的分隔符的设置。
枚举项 | |
---|---|
YES | 总是在元素之间添加分隔符。 |
NO | 如果元素为空值,则不添加分隔符。 |
定义位于文件 strings/combine.hpp 的 38 行。
std::unique_ptr<column> cudf::strings::concatenate | ( | table_view const & | strings_columns, |
string_scalar const & | separator = string_scalar("") , |
||
string_scalar const & | narep = string_scalar("", false) , |
||
separator_on_nulls | separate_nulls = separator_on_nulls::YES , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
按行拼接给定的字符串列列表,并返回单个字符串列结果。
每个新字符串是通过拼接来自同一行(由提供的分隔符分隔)的字符串创建的。
任何包含空值条目的行都将导致相应的输出行为空值条目,除非指定了用于替换的 narep 字符串。
如果 separate_nulls
设置为 NO
并且 narep
有效,则在空值元素之间不添加分隔符。否则,如果 narep
有效,则总是添加分隔符。
输入 strings_columns
表中必须指定多于一列。
cudf::logic_error | 如果输入列不全是字符串列。 |
cudf::logic_error | 如果分隔符无效。 |
cudf::logic_error | 如果只指定了一列 |
strings_columns | 要拼接的字符串列列表 |
separator | 应插入到每行每个字符串之间的字符串。默认为空字符串。 |
narep | 用于替换任何列中找到的空值字符串的字符串。默认值为 invalid-scalar,表示任何列中的任何空值条目都将导致该行输出为空值结果。 |
separate_nulls | 如果为 YES,则如果 narep 有效,包含空值的行也会包含分隔符 |
stream | 用于设备内存操作和核函数启动的 CUDA 流 |
mr | 用于分配返回列的设备内存的设备内存资源 |
std::unique_ptr<column> cudf::strings::concatenate | ( | table_view const & | strings_columns, |
strings_column_view const & | separators, | ||
string_scalar const & | separator_narep = string_scalar("", false) , |
||
string_scalar const & | col_narep = string_scalar("", false) , |
||
separator_on_nulls | separate_nulls = separator_on_nulls::YES , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
使用每行的分隔符,拼接字符串列列表,并将结果作为字符串列返回。
每个新字符串是通过拼接来自同一行(由该行提供的行分隔符分隔)的字符串创建的。以下规则适用:
separator_narep
separate_nulls
为 YES
,则在两个输出行值之间应用分隔符;如果 separate_nulls
为 NO
,则仅在有效行之间应用分隔符。separator_narep
和 col_narep
都有效,则输出列始终不可为空值。cudf::logic_error | 如果未指定输入列 - 表视图为空 |
cudf::logic_error | 如果输入列不全是字符串列。 |
cudf::logic_error | 如果 separators 和 strings_columns 的行数不匹配 |
strings_columns | 要拼接的字符串列列表 |
separators | 提供给定行的分隔符的字符串列 |
separator_narep | 用于替换给定行的空值分隔符的字符串。默认值为 invalid-scalar,表示不对行分隔符值进行替换。 |
col_narep | 应替换任何列中找到的空值字符串的字符串。默认值为 invalid-scalar,表示不对空值列值进行替换。 |
separate_nulls | 如果为 YES,则如果 col_narep 有效,包含空值的行也会包含分隔符。 |
stream | 用于设备内存操作和核函数启动的 CUDA 流 |
mr | 用于分配设备内存的资源 |
std::unique_ptr<column> cudf::strings::join_list_elements | ( | lists_column_view const & | lists_strings_column, |
string_scalar const & | separator = string_scalar("") , |
||
string_scalar const & | narep = string_scalar("", false) , |
||
separator_on_nulls | separate_nulls = separator_on_nulls::YES , |
||
output_if_empty_list | empty_list_policy = output_if_empty_list::EMPTY_STRING , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
给定一个字符串列表列(每行是一个字符串列表),连接每行中的字符串并返回一个单字符串列结果。
每个新字符串是通过连接来自同一行(同一列表元素),并由提供的 separator
分隔的字符串创建的。
空值列表行总是会导致输出行为空值字符串。任何包含空值元素的非空值列表行将导致相应的输出行为空值,除非指定了用于替换的 narep
字符串。
如果 separate_nulls
设置为 NO
并且 narep
有效,则在空值元素之间不添加分隔符。否则,如果 narep
有效,则总是添加分隔符。
如果 empty_list_policy
设置为 EMPTY_STRING
,则任何空列表行都将导致输出空字符串。否则,输出将为空值。
在输入列表行包含所有空值元素的特殊情况下,无论 narep
和 separate_nulls
的值如何,输出都将与输入空列表的情况相同。
cudf::logic_error | 如果输入列不是字符串列表列。 |
cudf::logic_error | 如果分隔符无效。 |
lists_strings_column | 包含要连接的字符串列表的列 |
separator | 应插入到每个列表行中字符串之间的字符串。默认为空字符串。 |
narep | 用于替换任何非空列表行中空值字符串的字符串。默认值为 invalid-scalar,表示包含空值字符串的列表行将在相应的输出行中产生空值字符串。 |
separate_nulls | 如果为 YES,则如果 narep 有效,包含空值的行也会包含分隔符 |
empty_list_policy | 如果设置为 EMPTY_STRING,任何为空列表的输入行将产生一个空字符串。否则,将产生一个空值。 |
stream | 用于设备内存操作和核函数启动的 CUDA 流 |
mr | 用于分配返回列的设备内存的设备内存资源 |
std::unique_ptr<column> cudf::strings::join_list_elements | ( | lists_column_view const & | lists_strings_column, |
strings_column_view const & | separators, | ||
string_scalar const & | separator_narep = string_scalar("", false) , |
||
string_scalar const & | string_narep = string_scalar("", false) , |
||
separator_on_nulls | separate_nulls = separator_on_nulls::YES , |
||
output_if_empty_list | empty_list_policy = output_if_empty_list::EMPTY_STRING , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
给定一个字符串列表列(每行是一个字符串列表),连接每行中的字符串并返回一个单字符串列结果。
每个新字符串是通过连接来自同一行(同一列表元素),并由 separators
字符串列中提供的行分隔符分隔的字符串创建的。
空值列表行总是会导致输出行为空值字符串。任何包含空值元素的非空值列表行将导致相应的输出行为空值,除非提供了有效的 string_narep
标量用于替换。separators
列中的任何空值行也将导致输出行为空值,除非提供了有效的 separator_narep
标量用于替换空值分隔符。
如果 separate_nulls
设置为 NO
并且 string_narep
有效,则在空值元素之间不添加分隔符。否则,如果 string_narep
有效,则总是添加分隔符。
如果 empty_list_policy
设置为 EMPTY_STRING
,则任何空列表行都将导致输出空字符串。否则,输出将为空值。
在输入列表行包含所有空值元素的特殊情况下,无论 string_narep
和 separate_nulls
的值如何,输出都将与输入空列表的情况相同。
cudf::logic_error | 如果输入列不是字符串列表列。 |
cudf::logic_error | 如果 separators 和 lists_strings_column 的行数不匹配 |
lists_strings_column | 包含要连接的字符串列表的列 |
separators | 提供用于连接的分隔符的字符串列 |
separator_narep | 应用于替换空值分隔符的字符串。默认值为 invalid-scalar,表示包含空值分隔符的行将在相应的输出行中产生空值字符串。 |
string_narep | 用于替换任何非空列表行中空值字符串的字符串。默认值为 invalid-scalar,表示包含空值字符串的列表行将在相应的输出行中产生空值字符串。 |
separate_nulls | 如果为 YES,则如果 narep 有效,包含空值的行也会包含分隔符 |
empty_list_policy | 如果设置为 EMPTY_STRING,任何为空列表的输入行将产生一个空字符串。否则,将产生一个空值。 |
stream | 用于设备内存操作和核函数启动的 CUDA 流 |
mr | 用于分配返回列的设备内存的设备内存资源 |
std::unique_ptr<column> cudf::strings::join_strings | ( | strings_column_view const & | input, |
string_scalar const & | separator = string_scalar("") , |
||
string_scalar const & | narep = string_scalar("", false) , |
||
rmm::cuda_stream_view | stream = cudf::get_default_stream() , |
||
rmm::device_async_resource_ref | mr = cudf::get_current_device_resource_ref() |
||
) |
将列中的所有字符串拼接成一个新字符串,通过可选的分隔符字符串进行分隔。
这将返回一个包含一个字符串的列。任何空值条目都将被忽略,除非 narep
参数指定了替换字符串。
cudf::logic_error | 如果分隔符无效。 |
input | 用于此操作的字符串 |
separator | 应插入到每个字符串之间的字符串。默认为空字符串。 |
narep | 用于替换找到的任何空值字符串的字符串。默认值为 invalid-scalar,将忽略任何空值条目。 |
stream | 用于设备内存操作和核函数启动的 CUDA 流 |
mr | 用于分配返回列的设备内存的设备内存资源。 |