潮汕方言计算机输入法的研究.pdf

只篇物可能对阿lee兄kah阿Bodhi兄愈(liáu)易睇会pà去... 我而是睇了jûr过炒面...

潮汕方言计算机输入法的研究.pdf (243.54 KB)(右键另存为,手动重命名)

Tshṳ̂-pui Avalokiteśvara Phŏ-sat pó-hō tshuân-ke-nâng jît-jît phêng-an!
蹉跎莫遣韶光老 人生唯有讀書好 學須靜也  才須學也

--------------------------------------------
潮州话八调代表字:
1胎tho 2讨thó 3退thò 4托thoh
5逃tô 6在tŏ 7袋tō 8夺tôh
潮罗特殊变体:[ɯ]=ṳ=ur;[ã]=aⁿ=an;
[aʔ8]=âh=a̍h;[ts]=ts=ch;[tsʰ]=tsh=chh

任重而道远

刚好借用使者兄这个帖子抒发一下自己的感受。

当外面智能、海量词汇等等类型的官话输入法闹得沸沸扬扬的时候,越来越多的方言也开始了自己的输入法开发道路。
这本是好事,如吴语有13万词汇量的输入法,但恰恰大家却忽略了一点最重要的,那就是母语教育。
说句实在话,即使你打出字来,别人能否看懂是一个非常重要的问题,这也是我呼吁学术走向大众的初衷。

其实包括这篇文章,我看过的有关潮州方言输入法论文已经是第四篇了,大多都在跟风什么智能之类虚幻的东西;
看过台湾的一些有关输入法论文后,觉得也是一样空泛,就多了一些前瞻性的东西。

其实目前人工智能这种东西应用在输入法上面只是所谓自然语言统计模型而已,说白了就是一个概率统计问题。
概率从哪里来?它需要大量各个领域(或者使用者关注的领域)的语料。
语料从哪里来?这就是大家非常需要思考的一个问题了,可参考人家台湾现在正在做的一些项目大家可能就比较明白了。
这种概率法哪怕使用平滑法、特征熵、3元甚至多元后智能程度能有多高?可以看看《输入法一思考,人类就发笑》
这篇论文叙述的那个输入法可能就是之前那个我装后没几分钟就删掉的输入法。

其实我本人自刚开始干劲十足,而到现在对潮州话输入法开发兴趣淡然,个中原因种种。
最终我选择有空闲的时候来这里接触一下乡音,跟着大家一起重新学习潮州话。

当然,有志做这一些工作的人还是需要鼓励,毕竟有朝一日会需要。
我也推荐一些输入法开发的资料,潮州话输入法的那些就不罗列了,大家可到网上找。
需要实际源码可到本人参加的一个小项目去找找。

入门:《统计自然语言处理基础》
进阶:《语音编码》及《Developments in Speech Synthesis》这两本书虽然是与语音采集及数字合成相关,但多了一些比概率法更广泛的东西。
原帖由 lee 於 2008-11-4 13:12 發表
刚好借用使者兄这个帖子抒发一下自己的感受。

当外面智能、海量词汇等等类型的官话输入法闹得沸沸扬扬的时候,越来越多的方言也开始了自己的输入法开发道路。
这本是好事,如吴语有13万词汇量的输入法,但恰恰大家却忽略了一点最重要的,那就是母语教育
完全同意lee兄的见解! 与我心有戚戚焉。
Tshṳ̂-pui Avalokiteśvara Phŏ-sat pó-hō tshuân-ke-nâng jît-jît phêng-an!
蹉跎莫遣韶光老 人生唯有讀書好 學須靜也  才須學也

--------------------------------------------
潮州话八调代表字:
1胎tho 2讨thó 3退thò 4托thoh
5逃tô 6在tŏ 7袋tō 8夺tôh
潮罗特殊变体:[ɯ]=ṳ=ur;[ã]=aⁿ=an;
[aʔ8]=âh=a̍h;[ts]=ts=ch;[tsʰ]=tsh=chh

回復 #2 lee 的帖子

此段話倒是令我贊同不已。
揣一暝,大家做伙,讲天讲地,烧烧一杯茶,惦在冷淡的繁华都市,随人过日子。
我的mini版的pdf viewer看不了这篇文章……

事实上我们还不具备这种数据,mogher顶多也只是完成了字的收集而已。

lee有你所说的书的电子版吗?

回復 #5 Bodhisatua 的帖子

有,你要的话我可以传给你。