原帖由 lee 於 2008-4-27 00:49 發表
而且最近也在人工录入所有修订版潮州音字典中的注音,
打算闲暇之余搞个可用的输入法,
人工录入注音,什么注音呢?我觉得海阳系口音大体mogher已经cover了,如果是这个体系里面的没有必要做重复的工作。反而如果是潮阳普宁那边不规则对应字音倒是可以。

另外很久以前曾经有个饶平人联系过mogher说可以制作输入法,但后来没有下文,是你吗?
你打算制作什么类型的呢?
windows输入法生成器生成的那种,还是google IME这种比较智能的呢?如果是google类型的话,根据mogher的数据库至少可以做到海阳系口音的智能识别。
事实上新版mogher的拼音查询那里已经有模糊拼音查询的功能,不过我忘了是否disable了。
原帖由 lee 於 2008-4-27 00:49 發表

但我确实记得很多府城音腔及汕头音腔中的
"uang"我们都有读成"uam"的,
具体需要再考证一下(有机会向上辈求证)
府城现在大部分人没有保留uam, uap韵,你应该接触到这样的人比较多,汕头估计也是。

饭   col. pung7, lit. hueng6
幻   lit. hueng3
犯   lit. huam6

[ 本帖最後由 Bodhisatua 於 2008-4-27 11:07 編輯 ]
原帖由 lee 於 2008-4-27 01:00 發表

过段时间闲暇的时候想探索潮语的参数合成,
哪方面的参数合成呢?speech synthesis吗?我找过但是没找到现成的模型可以用。即使找到了,tone sandhi是一个比较困难的问题。因为是否需要sandhi需要进行语义分析、划分词群。这比普通话的难多了。
原帖由 Bodhisatua 於 2008-4-27 10:59 發表
人工录入注音,什么注音呢?我觉得海阳系口音大体mogher已经cover了,
如果是这个体系里面的没有必要做重复的工作。
反而如果是潮阳普宁那边不规则对应字音倒是可以。
现在录入的是60拼音及普通话拼音(普通话部分可以视为暂时多余),
过两个星期应该可以完成字典里所有的单字以及字典里的少数词的带音调注音,
到时我想根据饶平的口音(当然仅仅我是不够的)去补充一些读音,
以前访问 mogher 就一直都认为 mogher 上的注音是偏向府城腔的,
再而,对于好多缺字我已经从 Unicode ExtA,B 中找出来了,这部分也是补充,
再一个就是繁体字对应。

另外,表达一下自己的看法,
个人总觉得潮语罗马字不知为何总看着别扭,
不知道各位访客当你们看着潮语罗马字去拼发音时作何感想?

总而言之,我觉得除了注音外还有很多工作需要做。
原帖由 Bodhisatua 於 2008-4-27 10:59 發表
另外很久以前曾经有个饶平人联系过mogher说可以制作输入法,但后来没有下文,是你吗?
你打算制作什么类型的呢?
确实是我(没记错的话是2005年左右),
当时你说你们正在做,
我自己因为工作经常到处跑,
后来也没有什么想法,所以不了了之。

如果现在只是windows输入法生成器生成的那种,
我觉得我去做这个没有必要,因为以现在 mogher 的数据库去生成这个绰绰有余,
问题是仅仅限定某个地区的口音或者大杂烩,而且也没有其它功能。

不知你说的google类型是指它的词语识别还是 n-gram 识别?
我倒有想法把近期参与的 Sun 拼音中的一些东西借鉴过来,
现阶段想到的问题是如何因应潮州话的特点训练语料库还是纯粹拿普通话的语料直接使用,
如果拿普通话的语料直接使用的话,那么届时会见到的就是像现在打出的这段字词一样文绉绉的。
还有另外一个可以运用的是这些东西届时用于 TTS 的语库也是有价值的。
原帖由 Bodhisatua 於 2008-4-27 11:06 發表
哪方面的参数合成呢?speech synthesis吗?我找过但是没找到现成的模型可以用。即使找到了,tone sandhi是一个比较困难的问题。因为是否需要sandhi需要进行语义分析、划分词群。这比普通话的难多了。 ...
仅仅是语音参数合成(根本没有考虑过语音识别),
现在确实没有现有模型可以用,
所以有想法探索新的模型,
必备资料及分析软件已经找到一些,
没错,LPJ 数据提取存在一定的难度,
但我们不要因为它比普通话难而不去做,你说是吧?
何况普通话的参数合成已经完善了,甚至吴语也是这样,潮语呢?

[ 本帖最後由 lee 於 2008-4-27 15:45 編輯 ]
原帖由 lee 於 2008-4-27 15:28 發表
另外,表达一下自己的看法,
个人总觉得潮语罗马字不知为何总看着别扭,
不知道各位访客当你们看着潮语罗马字去拼发音时作何感想?
其实之所以觉得别扭是因为汉语拼音的影响。如果接触过ipa(国际音标),那么肯定会觉得潮语罗马字更容易接受,因为在音韵表记方面更为精准和美观。

另外,假如像Bodhi和我一样有学习其他外语倾向的话,会感觉到潮语罗马字更为有利于分辨一些国语使用者容易混淆的发音。比如,国语里面的b实际是/p/,p实际是/p‘/,而英语的b实际是/b/,英语的p有/p/和/p’/两种变体。一般学习外语的人容易受国语误导,把英语的b用国语的b去顶替。由于英国英语的p一般会送气,所以和正常口音的人交流还不会有大问题,但碰上印巴英语等喜欢用不送气的p(发音就是国语的b)的英语使用者,就往往会糊涂了。学习法语、西班牙语、意大利语等等把p,t,k都用不送气发音的语言,由于国语音韵的局限性,使得学习者根本难以区分b-p,g-k等的差别。这都是因为注音表音体系不完善之故。因为潮语里实际有b-p-ph的对立,而不像国语仅有清音送气不送气的对立。因此,潮语人学习意大利、法、西班牙等语言时,完全可以很方便的区分b-p,g-k的差别,而不至于犯国语人所常犯的错误。自己母语中固有的优势为何偏偏不去重视呢?

再者,60拼音很难和汉字混杂使用,因为它严格来说不具备独立成文的能力,特别是调号采用数字制。而想要为潮州话每一个音都找到合乎规范的字,那是不可能的。所以汉-罗混合文还是有其必要性。这种情况下,潮罗无疑更加成熟。

而且,由于潮罗标调号和拼写法与福建闽南、台湾地区的拼写基本一致,也有助于增进大闽语区内部的交流。”潮汕福建祖“,这个文化的联系始终是割不断的。

学习语言的时候,如何拼发音不可能直接靠拼音,而是需要先通过录音来熟悉(本版子板块《潮語教程》就是如此,提供了录音对照)。否则初学者一眼看到法语的tapis(地毯),也会误读成”他披斯“(实际上是应该读成潮语的”打比“)。但就像学法语的人一旦知道了发音规则,那么他看到了tapis就决不会错了。潮罗也一样。初看的时候可能觉得有点奇怪,但一旦熟悉之后,就很容易可以拼出了。而且增加了对于语音清浊、送气不送气等的区分敏感度。所以这其实只是一个初期适应的过程。来论坛学习过的老乡们,基本也认可潮罗的方案。何况潮罗还有大量的文献可以供我们了解这个母语的过去,了解现已被国语挤压而消失的潮州话本土词汇,比如我们论坛“研学材料”版上传的卓威廉《汕头白话英华对照词典》。如果只会60拼音,如何能够让我们的同胞们利用起这些珍贵的字典和素材来继承、发扬自己的母语?说实在话,我绝不认为只要保留了潮语的发音就算是保留了潮语了。当然,熟悉每个字的读音固然是必要的训练,但那个可以依靠一般的潮州音字典解决,而潮语的基本词汇、固有词汇,这些国语所无的东西,才是潮语最本色的所在。这些东西非常需要继承,而一般的潮音字典是没有记录的(比如李新魁《常用字典》就基本没有,林伦伦的新编潮州音字典增加了不少,是一大进步,但还是不足),只有这些潮语罗马字记载的词典,才真真切切的帮助我们留下了这些最为“潮味”的词汇。这些词汇正承受着国语词汇的强大压力,日渐退化,濒临灭绝(不是危言耸听,我从很多年轻人口语中得出这个结论的)。为了这些濒临灭绝的词汇,学习潮语罗马字也是有必要的,因为它更像一种拼音文字而不仅仅是拼音,它更能够记录下、保存下那些最“潮味”而又尚处于“有音无字”状态的词汇,而又不至于像用同音俗字注音那样令人觉得“土俗”而且纷纭杂乱无章程,因为罗马字自成体系,不是随便找同音字替代的,不至于千人千面。
Tshṳ̂-pui Avalokiteśvara Phŏ-sat pó-hō tshuân-ke-nâng jît-jît phêng-an!
蹉跎莫遣韶光老 人生唯有讀書好 學須靜也  才須學也

--------------------------------------------
潮州话八调代表字:
1胎tho 2讨thó 3退thò 4托thoh
5逃tô 6在tŏ 7袋tō 8夺tôh
潮罗特殊变体:[ɯ]=ṳ=ur;[ã]=aⁿ=an;
[aʔ8]=âh=a̍h;[ts]=ts=ch;[tsʰ]=tsh=chh
To lee:
如果仅仅是因为口音和romanization的差别而去重新录入应该没有必要,事实上海阳系甚至包括揭阳的大部分地区的把部分字的发音是相当系统的对应的,完全可以由一种对各种音韵区分清晰的口音来推导其他口音。如果说有必要录入,那也只是各种口音中相对特别的少数字,比如说饶平“开始”的“始”。

至于romanization方面,其实这也仅仅是起到一种标音的作用,它的表现形式如何,完全无关于它的本质作用。mogher实际上存储的也不是poj,而是一种特殊的方便程序处理的方案,在查询时再动态的转换为poj。

缺字以前是因为找不到输入法,现在觉得“逍遥笔”很不错,Ext B中的字都能写出来。目前的问题是有些本字不敢确定所以没有录取。

输入法技术我不怎么熟。google我欣赏的是他的智能词汇学习和语法识别的功能。另外模糊拼音这个应该很容易实现。以google的智能程度完全可以在普通话的基础上进行训练,毕竟潮州话也是汉语,大部分跟普通话接近。主要的问题是把汉语拼音换成某种潮州话的romanization就行了。

至于speech synthesis,难度可能还是在sandhi。这方面有空可以私下聊聊。
炖钵 tûn puah

把ung扯到国语的ʊŋ跟潮州话的ong的相似性继而影响到潮州话的发音可能有点遥远。

至于“把 ung 低化的潮州人不在少數”有点夸张,事实上几乎所有native对这两个韵分得很清。

“饭”的正音是png, pwng是其变化而成的音调,府城的“饭”确实很可能也经过pwng继而到pung的阶段,虽然现在无法考证。现在的留煌就正处于这种阶段。

回復 #27 Bodhisatua 的帖子

从词汇扩散(lexical diffusion)角度来说,并不排除大部分人在区分得清ung和ong的情况下,发生极少数ung混入ong的音变。比如“晚”。而炖的tung/tong两读也正符合词汇扩散过程中的竞争模式。

至于发生这一音变的原因,应该可以从社会语言学得到解释,那就是当初发生这一音变的那个initiator有可能是地位较高者,由此其语音的社会地位受到了民众的模仿而造成这个别音的扩散。对比Labov关于纽约不同阶层语音的调查可以理解这一点。

另外,炖钵的炖,揭阳是阳上声tŭng,府城居然是阳平?Bodhi君是否标错了单字调呢?单个发音的时候,比如说“只鸟liâh去炖”,应该很容易判断炖字的本调的。

最后,引用语言学家麦耘先生的一段话,是关于“新语法学派”(青年语法学派)和“词汇扩散论派”之间对历史音变的不同看法的,以供大家参考:
新语法学派强调语音变化要有条件,在同样的音系条件下就有同样的变化,而且是所有符合该条件的词按音变规律一起变,如有例外就一定有发生例外的原因。还有一点,就是音值上是一点一点地以人们注意不到的方式渐变的。这一理论是历史比较语言学的基础之一。
    也有一种观点,认为“每一个词都有自己的历史”,包括自己的读音演变的历史。这种观点不大讲究语音演变规律。
    上世纪60年代,美籍华人语言学家王士元等人创立一种新理论,这种理论也认为音变是有条件有规律的,但认为音变是一个一个词(字)变化,而不是一起变的(是在词汇层面扩散的,所以叫“词汇扩散论”),并且在音值上是从一个音位变成另一个音位,其过渡状态是一词两读。这样,当一个音变正当发展到中段时,会呈现在原本条件相同的词中,有些已经变化,有的尚未变化,有的具有已变和未变两读。当一项音变未完成时,如果有其他因素影响(例如有另一项音变插进来,与前一项音变形成竞争),就可能把原来的音变过程打断或打乱,造成原本条件相同的词有的变有的不变,或者有不同的变化。由于音变是在一个一个词上发生的,每一个词都可能有它自己的其他因素(譬如语义、语法以及社会因素)影响,使它不一定符合规律。
    词汇扩散论是既强调音变规律,又强调单个词的发展轨迹。凡不符合某一条音变规律的演变,都可以理解为受另一条(一些)规律竞争的影响造成的,而不必视为例外。
    例如北京话,全浊上声变去声(而且其中的塞音、塞擦音在清化后,跟全浊去声一样,读不送气清音)是一条规律。但有少数字不合规律,如“艇”、“强(勉强)”等。这些字至今仍读上声,且清化后与全浊平声字一样读送气清音。照新语法学理论,可以说它们是例外(但例外的原因待查)。照词汇扩散理论,它们是音变的剩余,剩余的原因也可以讨论。可能是别的字已经变了,它们拉在后面,本来也是要变的,但在将变之时,全浊音清化的规律开始起作用,把前一项音变打断了,所以它们就脱离了原来的规律(这些字为什么会拉后,也许也需要探讨)。有意思的是,广州话也有全浊上声变去声的情况,但保留读上声(今天广州话是阳上声)的字比北京话多得多(大约占所有全浊上声字的一半),而且清化以后也跟全浊平声一样念送气清音(变了去声的就跟去声字一样读不送气清音)。在广州话中,“浊上变去”的过程被打断的迹象比北京话明显得多。照我的想法,在广州话中这一音变被打断,可能跟粤方言的形成有关。“浊上变去”可能是从中唐直到北宋几百年里慢慢地一个一个字或一小批一小批字变的。粤方言的正式成立,照我的看法,是在五代十国的南汉时期(南汉是“十国”之一,地在今广东和广西一部),这个时期,岭南地区基本上不受当时苦于站乱的中原影响,包括语言方面的影响。所以一直跟着中原汉语的音变也停了下来,于是形成一些音变中止的现象, “浊上变去”是其中之一。
    可参看沈钟伟《词汇扩散理论》,载《汉语研究在海外》,北京语言学院出版社1995。
Tshṳ̂-pui Avalokiteśvara Phŏ-sat pó-hō tshuân-ke-nâng jît-jît phêng-an!
蹉跎莫遣韶光老 人生唯有讀書好 學須靜也  才須學也

--------------------------------------------
潮州话八调代表字:
1胎tho 2讨thó 3退thò 4托thoh
5逃tô 6在tŏ 7袋tō 8夺tôh
潮罗特殊变体:[ɯ]=ṳ=ur;[ã]=aⁿ=an;
[aʔ8]=âh=a̍h;[ts]=ts=ch;[tsʰ]=tsh=chh
啊哈,不好意思标错了
声调全部都是一样的:
炖钵 tŭn puah (阳上,阴入)
原来潮州话收后鼻音韵尾的,韵腹主要元音的实际发音都低于收前鼻音韵尾的(这种现象了解硫磺话的就会发现),当两者合流之后,韵腹先是保留了高低之分(如府城话),但因为前鼻音韵尾已变为后鼻音的了,受到韵尾ŋ的拉动,随之就慢慢向低化发展,最终连韵腹也会合流的(汕头、揭阳变得快一点)。