Home首页 BlackBerry iPhone 下载中心 NCDigi论坛 数码商城 Wiki 电信镜像
北京小孟palm黑莓中关村实体店【华宇科技】实体连锁Palm批发和盈数码 诚信专业 用心服务天津艾迷数码专业智能数码店Palm 全新机 中关村特价店
发新话题
打印

[软件] PdbEditor:如何将memo域的内容连同词条一起导出成一行,用于转换成 Zdict?

本主题由 treo8 于 2008-10-9 15:31 解除高亮

PdbEditor:如何将memo域的内容连同词条一起导出成一行,用于转换成 Zdict?

刚刚成功用 PDBEditor更新了一个 33万多的词汇库。速度与 Gendic.exe 相比  那可谓天然之别。一个字:爽。待最后搞定词典后再与大家分享。
/ E4 W: q4 S0 S3 _# s1 q/ o有一问题需要请教。+ q1 @/ ]7 m4 W
源词汇库用 Access做,词条除了英文和中文栏(域)外,还有一个 Memo 式的注释域,用于提供词条的上下文出处或其它说明,有些说明会很长,而且还有段落。以前我转换时就将该注释域去掉。现在既然2.42版Zdict支持 16k,我想将该库中的memo 注释域内容也加进辞典。
' ]; P3 D/ E! s可是遇到一个技术问题。将词汇库导出后,各词条占一行,注释用 Tab 隔开。但是,凡是有较长注释域的词条,其注释域的内容会换行冒充成为新的词条。
* c( T4 B9 G4 c! M1 D$ {% a+ F
# ^) r% Q! F+ D- b请问如何将memo域的内容连同词条一起导出成一行,用于转换成 Zdict? 9 p$ X/ a* P, |
' i" q* [9 W" @! N. K
[ 本帖最后由 Appia 于 2008-10-3 13:39 编辑 ]
自己顶一下。希望高手指点。
这个确实有点麻烦,那你怎么把成段的注释导入到ACCESS里面的?
这个词汇库用Access做成,含有memo域,由词汇员自己输入,有时他从网站拷贝一些背景介绍,拷贝后能保持原来的网页格式持。我把他的库拷贝过来于转换成 Zdict。
' e. n  I% m6 f目前我已经用 Word,通过 替换,清理了Memo域中的大部分的格式,但仍有一部分必须手动处理,很费时间。基本告一段落。7 A* v7 A" k) Q$ |+ I
既然单个Zdict词条能有16k,我乘机把一些专题词汇作为一个词条内容放进Zdict 字典,如英美军衔分作2个词条,其内容则是各军种军衔的英汉对照,在 Tibet place names  (西藏地名)词条下列出几个著名的西藏地名和菜肴。目前在整理中国大百科全书的索引卷,以一并放入词典汇编。2 M& e/ C$ ?" B+ d& b% T( s
待完工后上传给大家。
附件: 您所在的用户组无法下载或查看附件
强烈支持高手们
没有完全看懂你的问题, 初步感觉:
! k! B% B+ N. a. |, F1 c- K# x
/ P/ L6 y! P! ]1 M0 m1. 可考虑在memo前面批量加入特征字符串, 然后, 用ultraedit 批量把tab+特征字符串替换掉.
) A$ v) l0 p& R0 j7 s
! I8 s: H& e, C0 e5 _' h2 n2. 直接用ultraedit试试.
问题是 memo 的内容有段落。6 ]5 |( y) c6 a/ @6 }
我用 Crimson Editor,据说与 Ultraedit 差不多,觉得不错。在 Word中我用 ^p 寻找 段落,用 ^t 寻找跳格。但不知道如何在 Crimson Editor 上做同样的操作。能否指点一二?
附件: 您所在的用户组无法下载或查看附件
End of Line 就是^p* ?4 N9 c# w  y
Tab character 就是^t
我尝试无数次将中国大百科索引转成PdbEdit 能用的文本格式,均告失败。源文件4.4 Mb,读入Word 或  CrimsonEditor 没有问题,一旦要将段落符替换为 \n  软件就会死掉。本人不懂编程,实在不好意思。 请哪位高手帮忙把该文件转换成这样的格式:# ~9 V: u9 }7 U# W8 F! c" e* n

8 @* o1 v+ w# P2 W4 F; {& P; W8 ~% e
碧绉   kebe crepe  - N* B2 m$ k) M2 f5 \5 s* {  X
壁虎科  Gekkonidae
8 y: [5 u/ g8 U1 Q/ S笔画   mural painting

! }- V; ^5 n( E& [+ _7 \
6 P2 Z& v2 K0 z# M7 O5 R/ |词条与英文之间是 跳格。$ k+ h' N& k: H2 J& T/ E
如能再转成英汉则更好:
& J' Y! y6 E, u" H! M# l) O) i
' ]. K, {# K- w9 V3 P0 n9 B
kebe crepe    碧绉  
4 y2 `* x1 F) X, L! u" dGekkonidae     壁虎科0 M9 N2 }& l6 A* j% e/ D6 R% w4 |- r: m
mural painting     笔画

/ C- h* W  F- {$ T2 ~- u8 w3 V* l* |: m
有许多中文词条没有对应英文,做英中文本时可以删去。
0 `' K/ }; ]7 ^原文词条中的“ 08 《生物学》” 是指 第八卷 《生物学》( T0 v4 v4 P! ?# x8 ^- v# e
) f% f8 x, h# W+ b- Z# e
下载: http://www.wenhui.ch/zml/palmdict/ency.zip  

9 \6 b8 V; G9 h4 a$ _* W) [$ C9 V0 G% [( E' F
我准备将中国大百科的索引整合到我手头的联合国词汇后一并提供各位共享,如果有高手能帮忙转换大百科的索引的话。
# X2 m, E! F2 }/ d* J' k( a静候高手佳音。, g7 J* g1 }9 U5 C

4 U4 f9 A3 v3 J6 i6 l" `[ 本帖最后由 Appia 于 2008-10-6 23:53 编辑 ]
附件: 您所在的用户组无法下载或查看附件
你那个文件太不标准了,有重复的,词条有三行、有四行的。
2 I, u) v" \9 n# b$ W" W光替换是不能解决问题的,脚本代码和转换结果都给你~
复制内容到剪贴板
代码:
# -*- coding: cp936 -*-
import re
prog=re.compile("^\d{2} 《")
f=open("Full CH-ENCY.txt","rU")
t=open('t.txt','w')
entry=""
dic={}
for line in f:
    line=line.rstrip()#去除换行符
    if line:
        if entry=="":
            entry=line
            if entry not in dic:
                dic[entry]=[]#合并词条
        elif prog.match(line):
            if line not in dic[entry]:#防止重复
                dic[entry].append(line)
            entry=""#词条结束
        else:
            if line not in dic[entry]:
                dic[entry].append(line)
for i in sorted(dic.keys()):
    print >>t,"%s\t%s"%(i,r"\n".join(dic))#写入文件
t.close()
[ 本帖最后由 osfans 于 2008-10-8 00:36 编辑 ]
附件: 您所在的用户组无法下载或查看附件
建议你考虑分两次输出成文本文件:$ a6 u) o) r! m1 [2 Z8 k

: x$ V9 ~# O/ P, F1。在原来的数据库中删除memo, 然后输出。但要确保输出的文本格式有规律;
$ P' O" |+ w6 A5 E$ [( V6 Z. e+ G, k: \5 x& @3 X1 Y
2。在原来的数据库中删除释疑,只保留memo, 然后输出。但也要确保输出的文本格式有规律;
; J( r  p* R' L5 a" ]$ C6 U1 C& y/ a5 ~6 u8 ~, L( Y
最后,把两个输出的文件合并即可。
感谢OSFAN出手相助,已经下载转换好的文件。准备晚上清理掉书名号、引号,拿出整合好的字典。
. h8 e% ?) b3 P2 i: A1 _2 K7 G' N' j+ W8 [: ~' s$ X( \  H+ I
谢谢一并提供你编的转换程序,对我来说犹如天书。# A# E- r3 U$ f6 i" r5 ]

/ J0 c" ^5 b( Q( {* [1 jbltian  memo 已经手动处理。累人啊,不想再折腾memo输出了。( I: R& `/ U8 D7 W

4 O3 p9 x& |9 I' n- v' |有了你我他,Palm 生命力无穷。
刚才又看了一下联合国词汇,发现还有不少memo格式很乱,不整理吧,实在太扎眼,手工整理吧真痛苦,已经费了不少时间精力。还是请这里的能人帮忙。4 O! [0 o8 ?0 `2 {
我现将该词汇库的Access文件放上来,希望Osfan 或哪位达人能帮忙编个小程序理顺 将库中的词条加 memo内容导成文本文件,供 Pdbeditor 转换成 Zdict 字典。多谢了。
. i1 ~7 R8 U, B/ r
4 k4 C9 F: u$ b2 h9 m2 H 下载: http://www.wenhui.ch/zml/palmdict/unterms.zip
) h, u! z8 ]' S' r1 ^& e0 D
7 E3 Y& u% j( A, G& S注memo中的不少内容是从别的网页上直接拷贝过来,保留了段落格式。
嗯,我下载看看,好编的话,就给你写几句。
下不了,先睡了~
引用:
原帖由 osfans 于 2008-10-7 17:53 发表 7 K6 q, U# m/ [8 \/ B
下不了,先睡了~
3 H% x: S( M+ U* X; c7 ], @
辛苦了。等待结果。
我看了一下,好像比较规律比较简单嘛。+ \2 V' G- r+ `6 o
你贴到excel里就可以做了。一行一个词条,然后合并。
引用:
原帖由 osfans 于 2008-10-9 02:54 发表
/ R8 C9 i: _) U我看了一下,好像比较规律比较简单嘛。; }5 l. r$ ?( l5 E) F3 J1 X0 _% K
你贴到excel里就可以做了。一行一个词条,然后合并。
1 K! ]% J/ T6 B4 q有许多词条的注释memo含有段落,格式复杂,我无法处理。请看例子:
附件: 您所在的用户组无法下载或查看附件
发新话题