我们有一些包含德语变音符号的文本,使用’a’+ COMBINING DIAERESIS($ cc $ 88)表示。
知道如何将此类文本正确转换为utf8吗?
首先,如果尚未将unicode其解码。第二,unicodedata.normalize()。第三,编码。
unicode
unicodedata.normalize()