在什么情况下相等的字符串共享相同的引用?
问题内容:
我已经在网上搜索并出现堆栈溢出问题,但无法找到该问题的答案。我所做的观察是在Python 2.7.3中,如果您为两个变量分配相同的单个字符串,例如
>>> a = 'a'
>>> b = 'a'
>>> c = ' '
>>> d = ' '
然后,这些变量将共享相同的引用:
>>> a is b
True
>>> c is d
True
对于某些较长的字符串也是如此:
>>> a = 'abc'
>>> b = 'abc'
>>> a is b
True
>>> ' ' is ' '
True
>>> ' ' * 1 is ' ' * 1
True
但是,在许多情况下(意外地)不共享引用:
>>> a = 'a c'
>>> b = 'a c'
>>> a is b
False
>>> c = ' '
>>> d = ' '
>>> c is d
False
>>> ' ' * 2 is ' ' * 2
False
有人可以解释一下原因吗?
我怀疑解释器可能会做一些简化/替换,并且/或者某些缓存机制会利用python字符串在某些特殊情况下是不可变的来优化的事实,但是我知道什么?我尝试使用str构造函数和copy.deepcopy函数制作字符串的深层副本,但是这些字符串仍然不一致地共享引用。
我对此有问题的原因是因为我在为新型python类的克隆方法编写的某些单元测试中检查对字符串的引用是否不相等。
问题答案:
何时缓存和重用字符串的详细信息取决于实现,可以从Python版本更改为Python版本,因此无法依赖。如果要检查字符串是否相等,请使用==
,而不要使用is
。
在CPython(最常用的Python实现)中,总是对源代码中出现的字符串文字进行中间检查,因此,如果相同的字符串文字在源代码中出现两次,则它们最终将指向同一字符串对象。在Python
2.x中,您也可以调用内置函数intern()
来强制执行特定字符串的插入操作,但实际上不应该这样做。
*关于检查实例之间属性是否不正确共享的实际目的进行 *编辑
:这种检查仅对可变对象有用。对于不可变类型的属性,共享和非共享对象之间没有语义差异。您可以使用以下方法从测试中排除不可变类型
Immutable = basestring, tuple, numbers.Number, frozenset
# ...
if not isinstance(x, Immutable): # Exclude types known to be immutable
注意,这还将排除包含可变对象的元组。如果要测试它们,则需要递归地降级为元组。