如何在python中使用正则表达式进行多次替换?
问题内容:
我可以在下面使用此代码创建一个新文件a
,aa
用正则表达式替换为。
import re
with open("notes.txt") as text:
new_text = re.sub("a", "aa", text.read())
with open("notes2.txt", "w") as result:
result.write(new_text)
我想知道是否必须多次使用此行,new_text = re.sub("a", "aa", text.read())
但是用该字符串替换要更改的其他字母,以便在文本中更改多个字母?
也就是说,a
-> aa
,b
->bb
和c
-> cc
。
因此,我必须为要更改的所有字母写该行,或者有没有更简单的方法。也许是创建翻译的“字典”。我应该将这些字母放入数组吗?我不确定如何调用它们。
问题答案:
@nhahtdh提出的答案是有效的,但我想比规范的示例少使用pythonic的示例,该示例使用比其regex操作少的代码不透明,并利用python的内置数据结构和匿名函数功能。
在这种情况下,翻译词典是有意义的。实际上,这就是Python Cookbook的工作方式,如本示例所示(从ActiveState
http://code.activestate.com/recipes/81330-single-pass-multiple-
replace/
复制)
import re
def multiple_replace(dict, text):
# Create a regular expression from the dictionary keys
regex = re.compile("(%s)" % "|".join(map(re.escape, dict.keys())))
# For each match, look-up corresponding value in dictionary
return regex.sub(lambda mo: dict[mo.string[mo.start():mo.end()]], text)
if __name__ == "__main__":
text = "Larry Wall is the creator of Perl"
dict = {
"Larry Wall" : "Guido van Rossum",
"creator" : "Benevolent Dictator for Life",
"Perl" : "Python",
}
print multiple_replace(dict, text)
因此,根据您的情况,您可以做一个字典trans = {"a": "aa", "b": "bb"}
,然后将其multiple_replace
与要翻译的文本一起传递。基本上,该功能所要做的就是创建一个包含所有要翻译的正则表达式的巨大正则表达式,然后在找到该正则表达式时,将一个lambda函数传递regex.sub
给执行翻译字典查找。
您可以在读取文件时使用此功能,例如:
with open("notes.txt") as text:
new_text = multiple_replace(replacements, text.read())
with open("notes2.txt", "w") as result:
result.write(new_text)
实际上,在需要将一年中的几个月从捷克语翻译成英语以进行网络抓取任务的情况下,我实际上在生产中使用了这种精确方法。
正如@nhahtdh所指出的,这种方法的一个缺点是它不是无前缀的:作为其他字典键前缀的字典键将导致该方法中断。