Python:将复杂的字符串字典从Unicode转换为ASCII
问题内容:
作为从JSON API调用解析的多级字典,我有很多输入。字符串全部用unicode表示,这意味着很多u'stuff likethis'
。我正在使用jq处理结果,需要将这些结果转换为ASCII。
我知道我可以编写一个函数来像这样转换它:
def convert(input):
if isinstance(input, dict):
ret = {}
for stuff in input:
ret = convert(stuff)
elif isinstance(input, list):
ret = []
for i in range(len(input))
ret = convert(input[i])
elif isinstance(input, str):
ret = input.encode('ascii')
elif :
ret = input
return ret
这是正确的吗?不确定。那不是我想问你的。
我要问的是,这是解决该问题的典型暴力解决方案。肯定有更好的办法。一种更pythonic的方式。我不是算法专家,但是这个算法看起来也不是特别快。
那有更好的方法吗?否则,是否可以改善此功能…?
答案后编辑
马克·阿默里(Mark
Amery)的回答
是正确的,但我想发布它的修改版本。他的功能适用于Python
2.7+,而我适用于2.6,因此必须对其进行转换:
def convert(input):
if isinstance(input, dict):
return dict((convert(key), convert(value)) for key, value in input.iteritems())
elif isinstance(input, list):
return [convert(element) for element in input]
elif isinstance(input, unicode):
return input.encode('utf-8')
else:
return input
问题答案:
递归似乎是一种解决方法,但是,如果您使用的是python
2.xx,则要检查unicode
,而不是str
(str
类型代表一个字符串字符串,类型代表一个unicode
Unicode字符字符串;两者都不继承自另一个)并且它是unicode类型的字符串,在解释器中显示,前面带有au)。
在您发布的代码中也有一点语法错误(结尾elif:
应该是else
),并且在输入是字典或列表的情况下,您不会返回相同的结构。(对于字典,您将返回最终键的转换版本;对于列表,您将返回final元素的转换版本。都不对!)
您还可以通过理解使您的代码漂亮且具有Python风格。
那么,这就是我的建议:
def convert(input):
if isinstance(input, dict):
return {convert(key): convert(value) for key, value in input.iteritems()}
elif isinstance(input, list):
return [convert(element) for element in input]
elif isinstance(input, unicode):
return input.encode('utf-8')
else:
return input
最后一件事。我更改encode('ascii')
为encode('utf-8')
。我的理由如下:以ASCII编码时,任何仅包含ASCII字符集中的字符的unicode字符串都将由与utf-8编码时相同的字节字符串表示,因此使用utf-8而不是ASCII不会破坏任何内容,并且只要您要处理的unicode字符串仅使用ASCII字符,更改就不会可见。但是,此更改扩展了功能的范围,使其能够处理整个unicode字符集中的字符串,而不仅仅是ASCII字符集(如有必要)。