Java自动检测字符编码


问题内容

似乎是一个相当热门的问题,但是我还没有找到解决方案。也许是因为它有 很多
风味。虽然在这里。我正在尝试读取一些用逗号分隔的文件(有时,分隔符可能比逗号更具独特性,但现在就可以使用逗号了)。

这些文件本应在整个行业中标准化,但是最近我们看到了许多不同类型的字符集文件。我希望能够设置BufferedReader来对此进行补偿。

执行此操作并检测是否成功的标准方法是什么?

我对这种方法的第一个想法是循环遍历字符集simple-> complex,直到我可以无例外地读取文件。虽然不完全理想…

感谢您的关注。


问题答案:

Mozilla的 通用
图表应该是那里的有效检测器。juniversalchardet是它的java端口。还有一个端口。阅读此SO以获得更多信息字符编码检测算法