原帖由 輶轩使者 於 2009-11-16 08:05 發表
另外涉及一个问题,多读的词,是否按照使用频率排序呢?比如uann-tshuân排在an-tshuân之前? ...
可以,但不在这一round的scope里面,这一次只专注排除。当所有的排除以后,才会去关注词频问题。

因为在排除的结果里面可能80%以上的词都是单音词,不存在多音使用频率的问题。我们只需要对为数不多的存在多音的词设计出便捷的工具来解决词频排序。

事实上现在cover的只是第一步,整个工序会是这样的:
1. 排除非法注音。
2. 排除的过程其实也是对Mogher字库的检验,比如说缺音现象。可以根据检验的结果来修正字库。
3. Review,包括对另外20000多个本来就只有一个注音,不需要排除的词。
4. 针对多音词的注音进行优先排序。
5. 将每个祠与字库的definition关联。以前都是没有释义的,一个字不同含义的各个音都在收在一个选项里面,目前对本土字汇正在逐步区分。词与义的matching将会导致对释义的细分,至少是对本土字汇的释义的细分。

以上除第4步以外都需要一定的effort.

[ 本帖最後由 Bodhisatua 於 2009-11-16 11:58 編輯 ]
由于想到一个可能更有效率的算法,原计划暂停。

回復 #12 Bodhisatua 的帖子

具体的算法是:

1. 找一个区分多音不同字义的普通话字典。(一般是个字典都是这样做)
2. 建立每个字中mandarin音和tc音的对应关系。可能此结果的大部分是1对1的关系。
3. 一般的词库都注有mandarin音,根据此音和2的结果去标注tc音。假设2的“1对1”,那么在很多情况下一个词只有一种注音选择。
4. 针对剩下的还有多音的,再去做#1原来的流程。

还有没什么改进的空间?
这样子的话#11的step 1,2,5都将节省很多时间。