字符串处理#

Series.str 可用于将 Series 的值作为字符串访问,并对其应用多种方法。这些方法可以通过 Series.str.<function/property> 访问。

Series.str

用于 Series 和 Index 的矢量化字符串函数。

byte_count()

计算 Series/Index 中每个字符串的字节数。

capitalize()

将 Series/Index 中的字符串转换为首字母大写。

cat()

使用给定的分隔符连接 Series/Index 中的字符串。

center(width[, fillchar])

在 Series/Index 中字符串的左侧和右侧填充额外字符。

character_ngrams([n, as_list])

从字符串列中的字符生成 n-gram。

character_tokenize()

每个字符串被分割成单个字符。

code_points()

返回一个数组,其中填充了每个字符串中每个字符的 UTF-8 代码点值。

contains(pat[, case, flags, na, regex])

测试 Series 或 Index 的字符串中是否包含模式或正则表达式。

count(pat[, flags])

计算 Series/Index 中每个字符串中模式出现的次数。

detokenize(indices[, separator])

通过按照 indices 列中出现的顺序连接标记,将标记组合成字符串。

edit_distance(targets)

使用 Levenshtein 编辑距离算法,将 targets 字符串与此实例中的字符串进行测量。

edit_distance_matrix()

计算 Series 中字符串之间的编辑距离。

endswith(pat)

测试每个字符串元素的末尾是否与模式匹配。

extract(pat[, flags, expand])

将正则表达式 pat 中的捕获组提取为 DataFrame 中的列。

filter_alphanum([repl, keep])

从此列中的字符串中移除非字母数字字符。

filter_characters(table[, keep, repl])

使用给定映射表中的字符范围从每个字符串中移除字符。

filter_tokens(min_token_length[, ...])

移除 Series 中每个字符串内小于 min_token_length 的标记,并可选地将其替换为替换字符串。

find(sub[, start, end])

返回 Series/Index 中每个字符串中子字符串完全包含在 [start:end] 范围内的最低索引。

findall(pat[, flags])

在 Series/Index 中查找模式或正则表达式的所有出现。

find_multiple(patterns)

在 Series/Index 中查找模式的所有首次出现。

get([i])

从每个组件中提取指定位置的元素。

get_json_object(json_path, *[, ...])

将 JSONPath 字符串应用于输入字符串列,其中列中的每一行都是一个有效的 json 字符串。

hex_to_int()

返回每个十六进制字符串表示的整数值。

htoi()

返回每个十六进制字符串表示的整数值。

index(sub[, start, end])

返回每个字符串中子字符串完全包含在 [start:end] 范围内的最低索引。

insert([start, repl])

在指定位置将指定字符串插入到每个字符串中。

ip2int()

这会将 ip 字符串转换为整数。

ip_to_int()

这会将 ip 字符串转换为整数。

is_consonant(position)

对于 position 位置字符是辅音的字符串返回 true。

is_vowel(position)

对于 position 位置字符是元音(不是辅音)的字符串返回 true。

isalnum()

检查每个字符串中的所有字符是否都是字母数字。

isalpha()

检查每个字符串中的所有字符是否都是字母。

isdecimal()

检查每个字符串中的所有字符是否都是十进制数字。

isdigit()

检查每个字符串中的所有字符是否都是数字。

isempty()

检查每个字符串是否为空字符串。

isfloat()

检查每个字符串中的所有字符是否构成浮点值。

ishex()

检查每个字符串中的所有字符是否构成十六进制整数。

isinteger()

检查每个字符串中的所有字符是否构成整数。

isipv4()

检查每个字符串中的所有字符是否构成 IPv4 地址。

isspace()

检查每个字符串中的所有字符是否都是空白字符。

islower()

检查每个字符串中的所有字符是否都是小写。

isnumeric()

检查每个字符串中的所有字符是否都是数字。

isupper()

检查每个字符串中的所有字符是否都是大写。

istimestamp(format)

检查每个字符串中的所有字符是否可以使用给定格式转换为时间戳。

istitle()

检查每个字符串是否为标题格式。

jaccard_index(input, width)

计算此列与给定输入字符串列之间的 Jaccard 索引。

join([sep, string_na_rep, sep_na_rep])

使用传入的分隔符连接 Series/Index 中作为元素的列表。

len()

计算 Series/Index 中每个元素的长度。

like(pat[, esc])

测试 like 模式是否匹配 Series 或 Index 的字符串。

ljust(width[, fillchar])

在 Series/Index 中字符串的右侧填充额外字符。

lower()

将所有字符转换为小写。

lstrip([to_strip])

移除开头和结尾字符。

match(pat[, case, flags])

确定每个字符串是否匹配正则表达式。

minhash(seed, a, b, width)

计算字符串列或术语列表字符串列的 minhash。

ngrams([n, separator])

从一组标记生成 n-gram,Series 中的每条记录都被视为一个标记。

ngrams_tokenize([n, delimiter, separator])

使用每个字符串中的标记生成 n-gram。

normalize_characters([do_lower])

规范化字符串字符以进行标记化。

normalize_spaces()

移除标记之间的额外空白,并修剪每个字符串开头和结尾的空白。

pad(width[, side, fillchar])

将 Series/Index 中的字符串填充到指定宽度。

partition([sep, expand])

在 sep 的第一次出现处分割字符串。

porter_stemmer_measure()

计算每个字符串的 Porter Stemmer 度量。

repeat(repeats)

复制 Series 或 Index 中的每个字符串。

removeprefix(prefix)

从对象 Series 中移除前缀。

removesuffix(suffix)

从对象 Series 中移除后缀。

replace(pat, repl[, n, case, flags, regex])

将 Series/Index 中模式/正则表达式的出现替换为其他字符串。

replace_tokens(targets, replacements[, ...])

在 Series 的每个字符串中搜索 targets 标记,如果找到则替换为相应的 replacements。

replace_with_backrefs(pat, repl)

使用 repl 反向引用模板创建一个新字符串,其中包含使用 pat 表达式找到的提取元素。

rfind(sub[, start, end])

返回 Series/Index 中每个字符串中子字符串完全包含在 [start:end] 范围内的最高索引。

rindex(sub[, start, end])

返回每个字符串中子字符串完全包含在 [start:end] 范围内的最高索引。

rjust(width[, fillchar])

在 Series/Index 中字符串的左侧填充额外字符。

rpartition([sep, expand])

在 sep 的最后一次出现处分割字符串。

rsplit([pat, n, expand, regex])

在给定分隔符周围分割字符串。

rstrip([to_strip])

移除开头和结尾字符。

slice([start, stop, step])

从 Series 或 Index 中的每个元素切片子字符串。

slice_from(starts, stops)

使用每个字符串的位置返回每个字符串的子字符串。

slice_replace([start, stop, repl])

用新字符串替换每个字符串的指定部分。

split([pat, n, expand, regex])

在给定分隔符周围分割字符串。

startswith(pat)

测试每个字符串元素的开头是否与模式匹配。

strip([to_strip])

移除开头和结尾字符。

swapcase()

将每个小写字符更改为大写,反之亦然。

title()

将空格后每个字母的第一个字母大写,其余小写。

token_count([delimiter])

使用提供的定界符将每个字符串分割成标记。

tokenize([delimiter])

使用提供的定界符将每个字符串分割成标记。

translate(table)

通过给定的映射表映射字符串中的所有字符。

upper()

将每个字符串转换为大写。

url_decode()

返回每个字符串的 URL 解码格式。

url_encode()

返回每个字符串的 URL 编码格式。

wrap(width, **kwargs)

将 Series/Index 中的长字符串换行,使其格式化为段落,长度小于给定宽度。

zfill(width)

通过在 Series/Index 中的字符串前面加上 '0' 字符来填充字符串。