建立普通话词汇潮州音词库的倡议(2500 done,暂停)

Mogher正在建立注音词库。

词库将包含以下两部分:

1. 普通话词汇,其中大部分是书面语词汇;
2. 本土词汇。

为书面语词汇标注潮州音,有下面的理由:
1. 大量普通话词汇也经常应用在潮州话的口语或书面语中,汉语的共同词汇,比如成语等。
2. 对于多音字,可以清晰地让用户知道哪个音该用于哪个场合。
3. 为后面的输入法制作提供数据。

我已经开始为普通话词汇注音,词库采用http://pkucn.com/viewthread.php?tid=246869的数据。

其中有近百个由于Mogher数据的缺漏而无法自动注音;
近一半词汇由Mogher的数据自动注音;
另有一半的词(27013个)汇需要人工排除多音的情况。这大概需要35 man*hour的时间。

在这里希望大家有空的话可以帮忙排除。

word romanisation v1.1.rar (1014.06 KB)(右键另存为,手动重命名)

文件的格式如下:
Column 1, ID: 内部使用,请勿改动。
Column 2, R Count: 不同注音的个数。
Column 3, Confused: 如果对该词有任何疑问,比如不清楚发音、注音有误等。请用“1”或其他数字标示。
Column 4, Word: 该词
From column 5 on: 各种注音可能性,一格代表一种可能性。

如何操作:
1. 打开文件,选择“激活Macro”。
2. 对于每个词,从第5列开始,把有效的注音标志成蓝色,无效的保留白底,但无需删除。
3. 标注蓝色的方法是:把光标移至该格,然后按"Ctrl + A",该格自动变成蓝色。这样就可以通过四个方向键加上Ctrl+A就可以完成所有操作,操作比较方便。


如“安定”an1 tia~7, ua~1 tia~7皆有效, 在第5, 7列。则需要把第5、第7列标志成蓝色。
Capture.JPG

我已经开始处理2-2000行的词汇。

Completed
2-2500 (ID<=4988)

In Progress
2001-3000 (ID<=6057) Bodhi

[ 本帖最後由 Bodhisatua 於 2009-11-20 09:27 編輯 ]

有一些是有多读的

比如安定吧,全白读固然是最常见的,但书面一点也可以说ang-tiāⁿ的。
Tshṳ̂-pui Avalokiteśvara Phŏ-sat pó-hō tshuân-ke-nâng jît-jît phêng-an!
蹉跎莫遣韶光老 人生唯有讀書好 學須靜也  才須學也

--------------------------------------------
潮州话八调代表字:
1胎tho 2讨thó 3退thò 4托thoh
5逃tô 6在tŏ 7袋tō 8夺tôh
潮罗特殊变体:[ɯ]=ṳ=ur;[ã]=aⁿ=an;
[aʔ8]=âh=a̍h;[ts]=ts=ch;[tsʰ]=tsh=chh

回復 #2 輶轩使者 的帖子

有没有读 an-těng 的?
,   
,   
,   
  

真剣にやると、知恵が出る。

Ĉiu rajtas lerni la gepatran lingvon,kaj la internacian lingvon.

namah samanta buddhanam vajra me

微博  http://weibo.com/bambooheng

回復 #2 輶轩使者 的帖子

嗯,这个很难界定。比如“起程”,以前读khi2 theng5,现在没有人这样说了。有没什么比较简单的标准?

如果说都包含然后加入词频统计,那么effort需要多一点。这样子可以改为?每一行只保留有效的注音,无效的皆删除,另外越靠左边的优先级越高。

分文白我觉得太乱了,很多时候就是一个字文一个字白的,很难断定是文是白。
刚刚小弄了一下,发现这个问题确实比较麻烦,就一个“安”
固定的说法有“安乐”an, "安全" uann, ”安慰" uann, “安详”an
很随机的分布,那么对于一些没碰到的词语,就不知道该怎么读了,是不是应该保持对书面语遵循文读优先原则呢?
OK, 我改变了操作方式,现在标注的方式是:有效的用蓝色标志,无效的保留白底,但无需删除。详见一楼。
試試從字義上來釐清話文讀音的使用界線
an : 平靜、恬適
安樂, 安詳

uann :  穩定的 靜止的 使穩定
安全, 安慰
最愛還是閩東語(Eastern Ming Language)..., 欲罷不能.

 平上去入
上1234
下5678

回復 #7 Nguang 的帖子

此音文白没有明显的意义界限,譬如「安排」可读「an-pâi」,亦可读「uaⁿ-pâi」。
其实安全、安慰也有读文读an的,不见得都只能读uann(尽管uann是大多数)。

另外涉及一个问题,多读的词,是否按照使用频率排序呢?比如uann-tshuân排在an-tshuân之前?
Tshṳ̂-pui Avalokiteśvara Phŏ-sat pó-hō tshuân-ke-nâng jît-jît phêng-an!
蹉跎莫遣韶光老 人生唯有讀書好 學須靜也  才須學也

--------------------------------------------
潮州话八调代表字:
1胎tho 2讨thó 3退thò 4托thoh
5逃tô 6在tŏ 7袋tō 8夺tôh
潮罗特殊变体:[ɯ]=ṳ=ur;[ã]=aⁿ=an;
[aʔ8]=âh=a̍h;[ts]=ts=ch;[tsʰ]=tsh=chh

回復 #8 lee 的帖子

同感。无法从意义区分,只能凭习惯,甚至有一些词两种都有人说。