文件 | 函数
提取

文件

文件  strings/extract.hpp
 

函数

std::unique_ptr< tablecudf::strings::extract (strings_column_view const &input, regex_program const &prog, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 返回一个字符串列的表,其中每列对应于给定 regex_program 对象中指定的匹配组。 更多...
 
std::unique_ptr< columncudf::strings::extract_all_record (strings_column_view const &input, regex_program const &prog, rmm::cuda_stream_view stream=cudf::get_default_stream(), rmm::device_async_resource_ref mr=cudf::get_current_device_resource_ref())
 返回一个字符串列表列,其中每个字符串列行对应于给定 regex_program 对象中指定的匹配组。 更多...
 

详细描述

函数文档

◆ extract()

std::unique_ptr<table> cudf::strings::extract ( strings_column_view const &  输入,
regex_program const &  prog,
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

返回一个字符串列的表,其中每列对应于给定 regex_program 对象中指定的匹配组。

第一个组的所有字符串将进入第一个输出列;第二个组进入第二个输出列,依此类推。如果第 i 行的字符串不匹配,则在第 i 行的列中添加 null 条目。

任何 null 字符串条目都会返回相应的 null 输出列条目。

示例
s = ["a1", "b2", "c3"]
p = regex_program::create("([ab])(\\d)")
r = extract(s, p)
r is now [ ["a", "b", null],
["1", "2", null] ]

有关此 API 支持的模式的详细信息,请参见 Regex 特性 页面。

参数
输入此操作的字符串实例
progRegex 程序实例
stream用于设备内存操作和内核启动的 CUDA stream
mr用于分配返回表的设备内存的设备内存资源
返回值
从输入列中提取的字符串列

◆ extract_all_record()

std::unique_ptr<column> cudf::strings::extract_all_record ( strings_column_view const &  输入,
regex_program const &  prog,
rmm::cuda_stream_view  stream = cudf::get_default_stream(),
rmm::device_async_resource_ref  mr = cudf::get_current_device_resource_ref() 
)

返回一个字符串列表列,其中每个字符串列行对应于给定 regex_program 对象中指定的匹配组。

第一行的所有匹配组将进入第一行输出列;第二行的匹配结果将进入第二行输出列,依此类推。

如果相应的输入字符串行不匹配或该输入行是 null,将产生 null 输出行。

示例
s = ["a1 b4", "b2", "c3 a5", "b", null]
p = regex_program::create("([ab])(\\d)")
r = extract_all_record(s, p)
r is now [ ["a", "1", "b", "4"],
["b", "2"],
["a", "5"],
null,
null ]

有关此 API 支持的模式的详细信息,请参见 Regex 特性 页面。

参数
输入此操作的字符串实例
progRegex 程序实例
stream用于设备内存操作和内核启动的 CUDA stream
mr用于分配任何返回的设备内存的设备内存资源
返回值
包含从输入列中提取的字符串的列表列