字符串处理#

Series.str 可用于将 Series 的值作为字符串访问，并对其应用多种方法。这些方法可以通过 Series.str.<function/property> 访问。

Series.str

用于 Series 和 Index 的矢量化字符串函数。

`byte_count`()	计算 Series/Index 中每个字符串的字节数。
`capitalize`()	将 Series/Index 中的字符串转换为首字母大写。
`cat`()	使用给定的分隔符连接 Series/Index 中的字符串。
`center`(width[, fillchar])	在 Series/Index 中字符串的左侧和右侧填充额外字符。
`character_ngrams`([n, as_list])	从字符串列中的字符生成 n-gram。
`character_tokenize`()	每个字符串被分割成单个字符。
`code_points`()	返回一个数组，其中填充了每个字符串中每个字符的 UTF-8 代码点值。
`contains`(pat[, case, flags, na, regex])	测试 Series 或 Index 的字符串中是否包含模式或正则表达式。
`count`(pat[, flags])	计算 Series/Index 中每个字符串中模式出现的次数。
`detokenize`(indices[, separator])	通过按照 `indices` 列中出现的顺序连接标记，将标记组合成字符串。
`edit_distance`(targets)	使用 Levenshtein 编辑距离算法，将 `targets` 字符串与此实例中的字符串进行测量。
`edit_distance_matrix`()	计算 Series 中字符串之间的编辑距离。
`endswith`(pat)	测试每个字符串元素的末尾是否与模式匹配。
`extract`(pat[, flags, expand])	将正则表达式 pat 中的捕获组提取为 DataFrame 中的列。
`filter_alphanum`([repl, keep])	从此列中的字符串中移除非字母数字字符。
`filter_characters`(table[, keep, repl])	使用给定映射表中的字符范围从每个字符串中移除字符。
`filter_tokens`(min_token_length[, ...])	移除 Series 中每个字符串内小于 min_token_length 的标记，并可选地将其替换为替换字符串。
`find`(sub[, start, end])	返回 Series/Index 中每个字符串中子字符串完全包含在 `[start:end]` 范围内的最低索引。
`findall`(pat[, flags])	在 Series/Index 中查找模式或正则表达式的所有出现。
`find_multiple`(patterns)	在 Series/Index 中查找模式的所有首次出现。
`get`([i])	从每个组件中提取指定位置的元素。
`get_json_object`(json_path, *[, ...])	将 JSONPath 字符串应用于输入字符串列，其中列中的每一行都是一个有效的 json 字符串。
`hex_to_int`()	返回每个十六进制字符串表示的整数值。
`htoi`()	返回每个十六进制字符串表示的整数值。
`index`(sub[, start, end])	返回每个字符串中子字符串完全包含在 `[start:end]` 范围内的最低索引。
`insert`([start, repl])	在指定位置将指定字符串插入到每个字符串中。
`ip2int`()	这会将 ip 字符串转换为整数。
`ip_to_int`()	这会将 ip 字符串转换为整数。
`is_consonant`(position)	对于 `position` 位置字符是辅音的字符串返回 true。
`is_vowel`(position)	对于 `position` 位置字符是元音（不是辅音）的字符串返回 true。
`isalnum`()	检查每个字符串中的所有字符是否都是字母数字。
`isalpha`()	检查每个字符串中的所有字符是否都是字母。
`isdecimal`()	检查每个字符串中的所有字符是否都是十进制数字。
`isdigit`()	检查每个字符串中的所有字符是否都是数字。
`isempty`()	检查每个字符串是否为空字符串。
`isfloat`()	检查每个字符串中的所有字符是否构成浮点值。
`ishex`()	检查每个字符串中的所有字符是否构成十六进制整数。
`isinteger`()	检查每个字符串中的所有字符是否构成整数。
`isipv4`()	检查每个字符串中的所有字符是否构成 IPv4 地址。
`isspace`()	检查每个字符串中的所有字符是否都是空白字符。
`islower`()	检查每个字符串中的所有字符是否都是小写。
`isnumeric`()	检查每个字符串中的所有字符是否都是数字。
`isupper`()	检查每个字符串中的所有字符是否都是大写。
`istimestamp`(format)	检查每个字符串中的所有字符是否可以使用给定格式转换为时间戳。
`istitle`()	检查每个字符串是否为标题格式。
`jaccard_index`(input, width)	计算此列与给定输入字符串列之间的 Jaccard 索引。
`join`([sep, string_na_rep, sep_na_rep])	使用传入的分隔符连接 Series/Index 中作为元素的列表。
`len`()	计算 Series/Index 中每个元素的长度。
`like`(pat[, esc])	测试 like 模式是否匹配 Series 或 Index 的字符串。
`ljust`(width[, fillchar])	在 Series/Index 中字符串的右侧填充额外字符。
`lower`()	将所有字符转换为小写。
`lstrip`([to_strip])	移除开头和结尾字符。
`match`(pat[, case, flags])	确定每个字符串是否匹配正则表达式。
`minhash`(seed, a, b, width)	计算字符串列或术语列表字符串列的 minhash。
`ngrams`([n, separator])	从一组标记生成 n-gram，Series 中的每条记录都被视为一个标记。
`ngrams_tokenize`([n, delimiter, separator])	使用每个字符串中的标记生成 n-gram。
`normalize_characters`([do_lower])	规范化字符串字符以进行标记化。
`normalize_spaces`()	移除标记之间的额外空白，并修剪每个字符串开头和结尾的空白。
`pad`(width[, side, fillchar])	将 Series/Index 中的字符串填充到指定宽度。
`partition`([sep, expand])	在 sep 的第一次出现处分割字符串。
`porter_stemmer_measure`()	计算每个字符串的 Porter Stemmer 度量。
`repeat`(repeats)	复制 Series 或 Index 中的每个字符串。
`removeprefix`(prefix)	从对象 Series 中移除前缀。
`removesuffix`(suffix)	从对象 Series 中移除后缀。
`replace`(pat, repl[, n, case, flags, regex])	将 Series/Index 中模式/正则表达式的出现替换为其他字符串。
`replace_tokens`(targets, replacements[, ...])	在 Series 的每个字符串中搜索 targets 标记，如果找到则替换为相应的 replacements。
`replace_with_backrefs`(pat, repl)	使用 `repl` 反向引用模板创建一个新字符串，其中包含使用 `pat` 表达式找到的提取元素。
`rfind`(sub[, start, end])	返回 Series/Index 中每个字符串中子字符串完全包含在 `[start:end]` 范围内的最高索引。
`rindex`(sub[, start, end])	返回每个字符串中子字符串完全包含在 `[start:end]` 范围内的最高索引。
`rjust`(width[, fillchar])	在 Series/Index 中字符串的左侧填充额外字符。
`rpartition`([sep, expand])	在 sep 的最后一次出现处分割字符串。
`rsplit`([pat, n, expand, regex])	在给定分隔符周围分割字符串。
`rstrip`([to_strip])	移除开头和结尾字符。
`slice`([start, stop, step])	从 Series 或 Index 中的每个元素切片子字符串。
`slice_from`(starts, stops)	使用每个字符串的位置返回每个字符串的子字符串。
`slice_replace`([start, stop, repl])	用新字符串替换每个字符串的指定部分。
`split`([pat, n, expand, regex])	在给定分隔符周围分割字符串。
`startswith`(pat)	测试每个字符串元素的开头是否与模式匹配。
`strip`([to_strip])	移除开头和结尾字符。
`swapcase`()	将每个小写字符更改为大写，反之亦然。
`title`()	将空格后每个字母的第一个字母大写，其余小写。
`token_count`([delimiter])	使用提供的定界符将每个字符串分割成标记。
`tokenize`([delimiter])	使用提供的定界符将每个字符串分割成标记。
`translate`(table)	通过给定的映射表映射字符串中的所有字符。
`upper`()	将每个字符串转换为大写。
`url_decode`()	返回每个字符串的 URL 解码格式。
`url_encode`()	返回每个字符串的 URL 编码格式。
`wrap`(width, **kwargs)	将 Series/Index 中的长字符串换行，使其格式化为段落，长度小于给定宽度。
`zfill`(width)	通过在 Series/Index 中的字符串前面加上 '0' 字符来填充字符串。

字符串处理#

此页面