将包含COMBINING DIAERESIS的文本转换为utf-8


问题内容

我们有一些包含德语变音符号的文本,使用’a’+ COMBINING DIAERESIS($ cc $ 88)表示。

知道如何将此类文本正确转换为utf8吗?


问题答案:

首先,如果尚未将unicode其解码。第二,unicodedata.normalize()。第三,编码。