Brown聚类算法输出是什么意思?
问题内容:
我已经从https://github.com/percyliang/brown-
cluster
运行了Brown-
clustering算法,还从python实现了https://github.com/mheilman/tan-
clustering。并且它们都为每种唯一令牌提供某种二进制和另一种整数。例如:
0 the 6
10 chased 3
110 dog 2
1110 mouse 2
1111 cat 2
二进制和整数是什么意思?
在第一个链接中,二进制文件称为a bit- string
,请参见http://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/
但是,如何从输出中得知dog and mouse and cat
一个群集而the and chased
不是同一群集?
问题答案:
如果我理解正确,该算法会为您提供一棵树,您需要在某种程度上截断它才能得到簇。如果是那些位串,则应仅输入第一个L
字符。
例如,剪切第二个字符可为您提供两个群集
10 chased
11 dog
11 mouse
11 cat
在第三个字符处,您得到
110 dog
111 mouse
111 cat
切割策略是一个不同的主题。