- 黑桃猪
-
五笔相关的汉字知识
从前面的讲述中我们已经知道五笔字型是一种字型编码方案,同汉字的读音是无关的,要正确使用五笔字型输入法,使用者具备一定的汉字相关知识是必须的,否则在拆字根、确定识别码等关键环节上将无法进行。
1. 汉字的笔画
从书写形态上来看汉字的笔画有:点、横、竖、撇、捺、挑(提)、钩、(左右)折等八种。
但在五笔字型编码方案方法中,汉字的笔划只归结为横、竖、撇、捺、折五种。因为"点"和"捺"两者运笔方向基本一致,所以把"点"归为"捺";把挑(提)归结于"横"类;左钩归为"竖",其他带转折的笔划都归结为"折"类。
2. 汉字的书写顺序
在书写汉字时,应该按照如下规则:先左后右,先上后下,先横后竖,先撇后捺,先内后外,先中间后两边,先进门后关门等。
3. 汉字的基本组成单位
汉字都是由笔划或部首组成的,一个汉字可以拆成一些最常用的基本单位,这个基本单位在五笔字型里就叫字根。在五笔字型编码输入方案中,选取了大约130个这种基本单位作为组字的字根。众多的汉字全部由它们组合而成。如,"明字"由"日""月"组成,"吕"字是由两个"口"组成;在这些基本字根中有些字根本身就是一个完整的汉字,例如:日月人火手等,这种字根在五笔字型里叫做"成字字根"。
4. 汉字的部位结构
基本字根按一定的方式组成汉字,在组字时这些字根之间的位置关系就是汉字的部位结构。
(1)、单体结构 由基本字根独立组成的汉字,例如:目、一、手、山等。
(2)、左右结构 左右结构的字由左右两部分或左中右三部分构成,例如:明、响、辩等。
(3)、上下结构 上下结构的字由上下两部分或自上往下几部分构成,例如:昌、旦、莒、感等。
(4)、内外结构 汉字由内外部分构成,例如:巨、匠、国、连、原、问等。
5.汉字的字型信息
在五笔字型输入法中,为获取的字型信息,把汉字字型信息分成三类:
1型: 左右部位结构的汉字,例如:明、响、构等。虽然"构"的右边"勾"是两个基本字根按内外型组合成的,但整字仍属于左右型,这种分类主要是根据汉字的偏旁部首位置来进行的。
2型: 部位结构是上下型的字,例如:昌、感、萎、巍等。同左右型一样,像"巍"这类字虽然下面的"魏"是按左右型组合成的,但整字仍是上下型。
3型: 称为杂合型。包括单体结构和内外结构的汉字,也就是没有明显下下和左右结构特点的汉字。
在使用五笔字型输入汉字时,有时只靠输入该字的字根编码还不够,还需要根据字型信息确定,例如:"叭"和"只"字,都是由"口"和"八"两个字根组成的,为了区别究竟是哪一个字还必须使用字型信息。
在成千上万的汉字中,左右型结构的汉字占的比重较大,其次就是上下型,占比例量少的是杂合型。
在所有的汉字中,我们把由两个字根组成的汉字称作双合字,由三个字根组成的汉字称作三合字,四个字根组成的汉字称四合字,由多于四个字根组成的汉字称多合字。
我们必须注意,对汉字的结构进行如此的划分,不是只对于组成汉字的部分字根而言,而是就汉字的整体轮廓来进行划分的,是指整个汉字中字根之间排列的相互位置关系。由于汉字的结构比较复杂,为更容易的掌握怎样确定多字根的汉字的类型,下面再对三种汉字结构类型进行较为详细的说明。
左右型:
在左右型汉字中,包括下面几种情况:
(1)在由两个字根组成的汉字,即双合字中,两个字根分列左右,整个汉字中有着明显的界线,并且字根间有一定的距离,如:汉、明、林、极、休等。象这类汉字,就属于左右型结构。
(2)在三合字中,组成整个汉字的三个字根从左到右排列,或者单独占据一边的一个字根与另外两个字根呈左右排列,如,辩、掰等,都属于左右型结构。
(3)在四合字或多合字中,组成整个汉字的若干字根很明显地分成左右两部分,无论左右那一边字根数多,都将这种汉字定为左右类结构的汉字,如,械、讹、键等。
上下型:
上下型汉字也包括几种情况:
(1)在双合字中,两个字根的位置是上下的关系,这两个字根之间有着明显的界线,且有一定的距离,如,节、个、字、另等。
(2)在三合字中,三个字根也是分成两个部分,虽然其中一个部分的字根数要多一些,但两个部分仍然是上下两层的位置关系,这样的字如:意、花、怒、想等。
(3)组成四合字或多合字的字根也明显地分成上下两部分,则无论是上半部分字根数多一些或是或是下半部分字根数多一些,这样的汉字也属于上下结构型汉字,如;赢、离、聚等。
杂合型:
杂合型汉字包括单体,内体,包围三种类型,指组成整字的各个字根之间没有简单明确的左右或上下型关系,如:因、周、半、太等,象这样的汉字,字根之间都是内外或包围的关系。
在五笔字型汉字结构的划分中,必须着重注意下面几个约定:
(1)凡单笔画与字根相连者或带点结构都视为杂合型。
(2)汉字结构区分时,也要按"能散不连"的原则来进行。如"矢、卡、严"都视为上下型。
(3)含两字根且相交者属杂含型,如"乐、串、电、本、无、农"。
(4)下含"走之"字为杂合型,如"进、过,遂"等。
(5)以下各字为杂合型:司、床、厅、龙、尼、式、后、处等,但相似的右、左、有、布、灰等可视上下型。
五笔字型的键盘设计
由于五笔字型汉字编码方案中有130多个基本汉字单位,也就是有130多个字根,但计算机键盘没有这么多,且有很大一部分是功能或数字键,真正的字母键有26个。所以必须精心安排这130多个字根在键盘上的分布。因为键盘安排的优劣,很大程度地影响着汉字输入的速度、效率,也影响着方法的易学易用性。
一、键盘的分区
在五笔字型编码方案中,只使用了26个英文字母键,除了字母z作为学习键外,其余25个字母都作为基本编码用。并且按五笔对汉字笔画的分类(即横、竖、撇、捺、折),将键盘上的所使用的25个字母键分成了五个区,再根据字根的第一笔的类型,将所有有130多个基本字根分成五个部分,对应到每一个区上的各个键上,下面就是25个字母键的五个区的划分:
第一区:G F D S A
第二区:H J K L M
第三区:T R E W Q
第四区:Y U I O P
第五区:N B V C X
二、基本字根在键盘上的分布
在上面的讲述中,我们曾提到过五笔字型编码方案中,将键盘上的二十五个字母键分成五组,即五个区,每个区为了进一步区分开来,又分为五个位,然后将130多个基本字根按起笔分布在这五个区25个位(即25个键)中,每个键位平均5-6个基本字根。
在同一个键位上的几个基本字根中,选择一个具有代表性的字根,称为键名字根。五笔编码键盘图中各个键位左上角的字根就是键名字根,下面是键名字根与各字母的对应表:
第一区:区号为1,横起笔,各键键名为:王土大木工
对应键为:G F D S A,位号分别为1、2、3、4、5
第二区:区号为2,竖起笔,各键键名为:目日口田山
对应键为: H J K L M ,位号分别为1、2、3、4、5
第三区:区号为3,撇起笔,各键键名为:禾白月人金
对应键为: T R E W Q ,位号分别为1、2、3、4、5
第四区:区号为4,捺起笔,各键键名为:言立水火之
对应键为:Y U I O P ,位号分别为1、2、3、4、5
第五区:区号为5,折起笔,各键键名为:已子女又纟
对应键为:N B V C X ,位号分别为1、2、3、4、5
另外,每区的第一个字母键,又作为基本笔画的字母代码,即G代表横,H代表竖,T代表撇,Y代表捺,N代表折,这种字母代码与前面所说过的数字码相对应,主要作构成识别码用。
基本字根在键盘的分布还可以参见下面的五笔字型字根图,
(86版字根图)
三、字根在键盘上分布的助记特征
在五笔字型编码方案中,字根在键盘上的分布是有规律的,大部分都可以在音、形、义上有相近的地方,概括起来,下面的一些分布特征有助于我们学习记忆。
1、除了字根的第一个基本笔画的代号与这个字根所在键盘分区的"区号"保持一致外,相当一部分字根的第二笔代号与该字根所在键的"位号"相一致。
如,王,戋等它们的第一笔为横,代号1与所在区号一致,第二也是横,代号仍为1,与其所有键有位号一致。因此,这些字根的区位号为11,字根代码G;又如:文、方、广,它们的首笔是捺,代号为4,次笔是横,代号为1,所以它们的区位号为41,字根代码为Y。
2、与键名字根形态相似或相近,如:"王"字键上,有"五,戋"等字根,"日"字键上有"虫、早"等字根。
3、键位代码还表示了组成字根的单笔画的种类和数目,即位号与各键位上的复合散笔字根的笔画数目保持一致。如:点的代号为4,哪么41代表一个点"、",42代表两点水"",43代表三点水,44代表四点脚等等。依次类推,一个横"一"一定在11区,"二"一定在12键上,三个横"三"一定在13键上。
掌握了以上三个字根在键盘上的分布特征,整个字根的键位表是较容易熟悉的。
对于哪些与键面上的主要字根属于同种类型的次要字根,一是稍加熟悉进行联想;二是使用练习软件加强记忆。要记住字根,还可以依靠口诀,但更重要的是要常做拆字练习,拆的字多了,就可以牢固的记住各个字根据在键位。
笔字型编码的汉字拆分原则
由基本字根组成一个汉字,这是一个正过程,这个过程对我们没有什么影响。我们学习的是逆过程。即将一个完整的汉字拆分成若干个基本字根。
五笔字型编码方案拆字的基本原则可概括为下面几种情况:
一、单字根汉字
这种汉字就是我们所说的成字字根。由于这种汉字只有一个基本字根,所以不用再拆,这类汉字的拆分有单独规定,在下一节中会详细讲述。
二、散结构的汉字
由于组成这种汉字的字根之间没有什么关联。各部分相对独立,所以拆分时只需要简单地将这些字根孤立出来就行,这类汉字的拆分也相对简单。如"只"的字根是"口"和"八"。 "数",这个字的字根是"米" "女" "文"。
三、交叉结构或交连混合结构的汉字
这类汉字如果一个汉字只是由单笔画与基本字根相连组成,哪么就可以将这个汉字直接拆份成单笔画和基本字根即可,如:"上"可以拆分为"卜""一","太"可以分为"大"和"、"。
四、复杂结构的汉字
除此之外,更多的的汉字是哪些结构较复杂的,这些汉字由于组成字根之间有相连,包含或嵌套的关系,没有很明显的界限,对于初学者来说,难以拆分。对这样的汉字,拆分时要按以下原则进行,也就是"取大优先"、"兼顾直观"、"能连不交"、"能散不连"。
书写顺序:
拆分"合体字"时,一定要按照正确的书写顺序进行。
例:"新"只能拆成"立、木、斤",不能拆成"立、斤、木" "中"只能拆成"口、丨",不能拆成"丨、口";"夷"只能拆成"一、弓、人",不能拆成"大、弓"。
取大优先:
也叫做"优先取大"。按书写顺序拆分汉字时,应以"再添一个笔画便不能成其为字根"为限,每次都拆取一个"尽可能大"的,即尽可能笔画多的字根。
例1:"世"字:第一种拆法:一、凵、乙(误)第二种拆法:廿、乙(正)显然,前者是错误的,因为其第二个码元"凵",完全可以向前"凑"到"一"上,形成一个"更大"的已知码元"廿"。
例2:"制"字:第一种拆法:、一、冂、丨、刂(误)第二种拆法:、冂、丨、刂(正)同样,第一种拆法是错误的。因为第二码的"一",作为""后一个笔画,全可以向前"凑",与第一个码元""凑成"更大"一点的码元""。
总之,"取大优先",俗称"尽量往前凑",是一个在汉字拆分中最常用到的基本原则。至于什么才算"大","大"到什么程度才到"边",这要等熟悉了字根总表,便不会出错误了,所以熟悉字根表非常关键。
兼顾直观:
在拆分汉字时,为了照顾汉字码元的完整性,有时不得不暂且牺牲一下"书写顺序"和"取大优先"的原则,形成个别例外的情况。
例1:国:按"书写顺序"应拆成:"冂、王、丶、一",但这样便破坏了汉字构造的直观性,故只好违背"书写顺序",拆作"囗、王、丶"了。
例2:自:按"取大优先"应拆成:"亻、乙、三",但这样拆,不仅不直观,而且也有悖于"自"字的字源(这个字的字源是"一个手指指着鼻子")故只能拆作"丿、目",这叫做"兼顾直观"。
能连不交:
请看以下拆分实例:于:一十(二者是相连的)、二丨(二者是相交的)丑:乙土(二者是相连的)、刀二(二者是相交的)。当一个字既可拆成相连的几个部分,也可拆成相交的几个部分时,我们认为"相连"的拆法是正确的。因为一般来说,"连"比"交"更为"直观"。
能散不连:
笔画和字根之间,字根与字根之间的关系,可以分为"散"、"连"和"交"的三种关系。如:倡:三个字根之间是"散"的关系;自:首笔"丿"与"目"之间是"连"的关系;夷:"一"、"弓"与"人"是"交"的关系。字根之间的关系,决定了汉字的字型(上下、左右、杂合)。
1)、几个字根都"交""连"在一起的,如"夷"、"丙"等,便肯定是"杂合型",属于"3"型字,不会有争议。而散根结构必定是"1"型或"2"型字。
2)、值得注意的是,有时候一个汉字被拆成的几个部分都是复笔字根(不是单笔画),它们之间的关系,在"散"和"连"之间模棱两可。如:占:卜口两者按"连"处理,便是杂合型(3型)。两者按"散"处理,便是上下型(2型正确)。严:一厂后两者按"连"处理,便是杂合型(3型)后两者按"散"处理,便是上下型(2型正确)。当遇到这种既能"散",又能"连"的情况时.我们规定:只要不是单笔画,一律按"能散不连"判别之。因此,以上两例中的"占"和"严",都被认为是"上下型"字(2型)。
3)、作为以上这些规定,是为了保证编码体系的严整性。实际上,用得上后三条规定的字只是极少数。
五笔字型单字编码规则
一、五笔字型编码歌诀
掌握汉字的编码规则,熟悉每个汉字的编码,是五笔字型输入的基础,下面提供的单个字的五笔字型编码规则歌忘记诀:
五笔字型均直观,依照笔顺把码编;
键名汉字打四下,基本字根请照搬;
一二三末取四码,顺序拆分大优先;
不足四码要注意,交叉识别补后边。
从这歌诀就可以看出五笔字型编码规则的大致面貌,同时口诀也概括了五笔字型拆字取码的五项原则:
1、从形取其顺序按书写规则,即从左到右、从上到下、从外到内;
2、以130多个字根为基本单位;
3、对于字根数超过四个的汉字,按一二三末字根的顺序,最多只取四码;
4、单体结构拆分取大优先;
5、末笔与字型交叉识别。
下图是五笔字型编码流程图,以方便读者了解整个编码方案的概貌:
二、键名汉字的编码规则
五笔字型中规定的键名汉字共有25个,"王土大木工目日口田山禾白月人金言立水火之已子女又纟"
25个键名汉字与25个字母键相应,这些字的编码相当简单,它们的编码就是4个所在字母键字母,如:"言"字的编码为"YYYY","纟"字的编码为"XXXX",等等。输入键名汉字时,只要连续击四次该字所在的字母键即可。
三、成字字根的编码规则
在五笔字型字根键盘的每个字母键上,除了一个键名字根外,还有一些其它类型的字根。有些字根其本身就是一个汉字,这样的字根称为成字字根。成字字根的编码是按下面公式进行的:
键名码+首笔码+次笔码+末笔码
当成字字根仅为两笔时,编码只有三码,公式为:
键名码+首笔码+末笔码
例如:"石",字根所在的键为D,第一笔划为 "横"的编码是G,第二笔为 "撇"的编码是T键,末笔"横"的编码也是G键,所以这个字的五笔编码就是DGTG。再比如"虫"字,这个字根是在J键,第一笔是竖H,第二笔是折N,最末一笔是捺(在五笔里"点"做为"捺")Y,所以"虫"的五笔编码就是JHNY。
四、键外字的编码规则
国标GB2312-80中,上述的键名和成字字根这样的键面字总共才有一百多个,绝大部分汉字都不是成字字根,这些才是我们在使用当中用得最多的。
五笔字型汉字编码主要是键外字的编码,编码可以分为两类,纯字根码和识别码。如果一个汉字的字根是四个或超过四个,就用前三后一总共四个字根码组成编码。
不足四个字根的汉字需补一个字型结构识别码,以增加区分汉字的信息量。
1、字根码
每个字根都分派在一个字母键上,其所在键上的英文就是该字根的"字根码"。
凡含四个或超过四个字根的汉字,取其第一、二、三、末四个字根码组成键外字的输入编码。
第一字根编码+第二字根编码+第三字根编码+最末一个字根编码
这里一、二、三、末应按正常书写顺序,先左后右,先上后下,先外后内。
2、交叉识别码
一个字的字根不足四个时,依次击入字根码后,最后需要补一个识别码。为什么需要这个识别码呢,这里可以举例说明:如"沐"和"汀"字,这两个字都是由两个字根组成的,且这两个字的字根码都是IS。虽然也可以让输入者选择的方式来确定到底需要输入哪一个字,但这对汉字输入速度极为不利,重码率要越低越好,所以五笔编码中才引入了识别码这个概念来对这类汉字进行区分。
识别码是用该汉字最后一个笔画和字型结构信息来确定的,具体规则如下表:
左右结构(第1位) 上下结构(第2位) 杂合结构(第3位)
末笔是"横",在一区 G F D
末笔是"竖",在二区 H J K
末笔是"撇",在三区 T R E
末笔是"捺",在四区 Y U I
末笔是"折",在五区 N B V