网络版在速度和seo方面比较有优势,我很有兴趣在mogher的基础上开发一个闽语的字典,数据收集才会占到总工作量的90%以上,有没人有兴趣?

ps, flash的可以做成downloadable的version,而且理论上应该不需要excel辅助的。
原帖由 Bodhisatua 於 2008-12-2 11:59 發表
网络版在速度和seo方面比较有优势,我很有兴趣在mogher的基础上开发一个闽语的字典,数据收集才会占到总工作量的90%以上,有没人有兴趣
这里的闽语,包括哪些?潮语、闽南语、福州语么?

我有兴趣,现在看看阮、卢等人的表态。
原帖由 Bodhisatua 於 2008-12-2 11:59 發表
ps, flash的可以做成downloadable的version,而且理论上应该不需要excel辅助的。
速度正是我所担心的。当词汇数据量达到几千几万甚至几十万条的时候(我们必须做好这样的思想准备),搜索的效率将成倍地降低。因为纯文本或是excel方式组织的数据是没有索引信息的。
Three C's define me: Chinese by birth; Canadian by choice; Christian by grace.
不用讀取excel,大概有兩種方法,一種就是直接把數據保存在flash中,另外一種就是讀取外部數據,列如.txt,.as,.xml等,后者便于更新。flash的讀取速度是很快的。

至于這部電子字典幾時能做完,首先要看各位想做成什么樣?如果人多的話,半個月可能能完成。最耗時間的可能是前期的數據收集,這個要大家分工完成。最后的收尾、調試我來弄,主要是為了統一格式。

至于Bodhisatua提議的闽语字典,這個提議不錯,但話實話,我覺的目前不是很適合。
ʔ  ħ  ç  β  θ  ʃ ʒ         |       ø  œ  ɔ  ɛ  ɪ ʊ     |     æ  ə  ɑ  ɯ|
阴平1边  阳平2便(~宜    阴上3丙 阴去5变 阳去6辨  阴入7鳖 阳入8别
原帖由 akinchen 於 2008-12-2 15:47 發表
不用讀取excel,大概有兩種方法,一種就是直接把數據保存在flash中,另外一種就是讀取外部數據,列如.txt,.as,.xml等,后者便于更新。flash的讀取速度是很快的。

至于這部電子字典幾時能做完,首先要看各位想做成什么樣?如果人多的話,半個月可能能完成。最耗時間的可能是前期的數據收集,這個要大家分工完成。最后的收尾、調試我來弄,主要是為了統一格式。...
我是觉得做成excel比较好,便于日后直接到数据库。

那本alphabetic是闽英字典,实际上我们现在还有闽英词典(即1929年的第三版)、英闽词典(T.B. Adams的Jerry Norman的)、闽普词典(冯爱珍的和李如龙/梁玉璋的),这些词典都有大量例句,等等。可以说,如果能兼容这些词典的话,那这个在线词典真的可以做得很棒。不过我们暂处于起步阶段,所以先根据alphabetic做一个简易词典比较好,慢慢扩展。
Three C's define me: Chinese by birth; Canadian by choice; Christian by grace.
excel是建议的方式,数据收集之后,还需要进行规划化的分析和排错,因为人工输入存在错误是难免的,这有赖于excel的vba,而且统计分析或者romanisation方案的转换也很方便。

在此之后,可以很方便的导入到flash或者db. 直接放到flash里面应该是最快的。

字典的数据一般都是很static的,采用二分的效率足够了。
原帖由 GnuDoyng 於 2008-12-2 14:33 發表

这里的闽语,包括哪些?潮语、闽南语、福州语么?
当然是越多越具体越好,具体到某个县更好。
數據收集用excel,因為包含有Actionscript代碼,無法用excel運行Actionscript。可以把收集的資料從excel再復制到.as文件中。
我把昨天做的索引那小段as給各位看看就知道了。
var dic:Array = [{roma:"a", char:"", ipa:"a", ex:"老鴉"},{roma:"a", char:"阿"},{roma:"a", char:"亞"},{roma:"a", char:"啞"},{roma:"a", char:"瘂"},{roma:"a", char:"婭"},{roma:"a", char:"拗"},{roma:"a", char:"吓"},{roma:"a", char:"下"},{roma:"a", char:"廈"},{roma:"a", char:"婗"},{roma:"a", char:"[?]"},{roma:"á", char:"捱"},{roma:"á", char:"矮"},{roma:"á", char:"鞋"},{roma:"á", char:"鞵"},{roma:"aëh", char:"哊"},{roma:"aëng", char:"甕"},{roma:"ah", char:"揖"},{roma:"ai", char:"哀"},{roma:"ai", char:"靄"},{roma:"ai", char:"愛"},{roma:"ai", char:"噯"},{roma:"ai", char:"曖"},{roma:"aik", char:"阨"},{roma:"aik", char:"厄"}]
這是一個多維數組,{....}  大括號內為一個條目內的內容,例如搜索“鴉“字會得到大括號內的所有數據。大家收集數據時大概按excel中所列的幾個項來做。羅馬字、國際音標、漢字、聲部、韻部、白讀音我可以先做200頁,音調、例句和注釋對我這個不懂福州話的人來說有點困難。一口氣要把它做完顯然不可能,建議一個星期一個星期的定目標。

昨天碰到了一些問題就是有不少字只有讀音及解釋,卻沒有漢字,這類字我用[?]表示。還有一類漢字無法輸入我用(?)表示。

以下這幾個網站大家會用的到的。
http://www.zdic.net/              
http://zh.wiktionary.org/wiki/Wiktionary:部首索引
http://zh.wiktionary.org/wiki/Wiktionary:汉语拼音索引
ʔ  ħ  ç  β  θ  ʃ ʒ         |       ø  œ  ɔ  ɛ  ɪ ʊ     |     æ  ə  ɑ  ɯ|
阴平1边  阳平2便(~宜    阴上3丙 阴去5变 阳去6辨  阴入7鳖 阳入8别
原帖由 Bodhisatua 於 2008-12-2 09:34 發表

当然是越多越具体越好,具体到某个县更好。
缺少可靠的數據來源這是不行。
www.eastling.org上的就有問題,至少福安話部分我個人覺的就有不少錯誤。
有影響力的方言字典還是可以參考參考。
ʔ  ħ  ç  β  θ  ʃ ʒ         |       ø  œ  ɔ  ɛ  ɪ ʊ     |     æ  ə  ɑ  ɯ|
阴平1边  阳平2便(~宜    阴上3丙 阴去5变 阳去6辨  阴入7鳖 阳入8别
原帖由 akinchen 於 2008-12-2 16:59 發表
數據收集用excel,因為包含有Actionscript代碼,無法用excel運行Actionscript。可以把收集的資料從excel再復制到.as文件中。
我把昨天做的索引那小段as給各位看看就知道了。


這是一個多維數組,{....}  大括號內為一個條 ...
我猜你的actionscript也是auto generated的吧?所以excel是很好的原数据保存工具。
那好,我们就先根据第一版闽英字典做福州语的在线字典吧,先做在excel里。

那本字典用的是旧式的、不够完善的罗马字,所以做成新字典的时候要改成新版的。

还有,谁愿意报名分担录入工作,就跟贴吧。
Three C's define me: Chinese by birth; Canadian by choice; Christian by grace.