什么是汉字电报码?
汉字电报码,顾名思义,是为适应电报传输技术而创造的一种将汉字转化为数字序列的编码方式。在早期的电报系统中,信号传输依赖于脉冲(如摩尔斯电码的点和划)或简单的电流通断,无法直接传输复杂的汉字图形信息。因此,需要一个标准化的系统,将每个常用的汉字与一个特定的数字代码一一对应起来。汉字电报码就是这样一套“汉字 <=> 数字”的转换规则和对应的查找表(码本)。
最广泛使用的汉字电报码采用的是四位阿拉伯数字编码。这意味着每一个汉字都被赋予了一个从0000到9999之间的唯一数字代码。通过这个码,发电报时可以将文字内容转化为一串串的数字;收电报时,则根据这些数字反查出原有的汉字,从而实现中文信息的远距离传递。
为什么电报要用数字码表示汉字?
早期技术的限制
电报技术诞生之初,其核心原理是通过电信号的有时长时短的脉冲组合(如摩尔斯电码)或简单的开关状态来传输信息。这种技术非常适合表示数量有限的、标准化的符号,比如26个英文字母和10个阿拉伯数字,以及一些标点符号。然而,中文有成千上万个常用汉字,每个汉字结构复杂且各不相同,用早期电报技术直接传输每个汉字的“形状”是不可行的。
数字编码的优势
将汉字转换为数字,就将一个复杂图形的传输问题,简化为了一个标准化数字序列的传输问题。无论哪种电报技术(摩尔斯电码、电传打字机等),都能够高效、准确地传输数字。通过电报码,一个汉字变成一个固定的四位数字,例如“明”可能对应1234,“天”可能对应5678。发送端发送“12345678”,接收端就能还原出“明天”。这种方式绕开了直接处理汉字图形的技术难题,使得中文电报成为可能。
为什么是四位数字?
选择四位数字(0000-9999)作为编码长度,主要是基于对汉字数量的需求和当时技术的平衡。
- 覆盖范围: 最常用的汉字数量大约在三千到七八千字之间。四位数字提供了10000个可能的代码(从0000到9999)。这个容量足以容纳当时及后续一段时间内电报通信所需的大部分常用汉字,并预留了一部分空间给标点符号、功能码以及后续增补的汉字。
- 传输效率与复杂度: 少于四位数字(如三位,只有1000个代码)不足以覆盖常用汉字;多于四位数字会增加传输长度,降低效率,并增加查找和记忆的复杂度。四位数字在覆盖范围和操作便捷性之间取得了一个较好的平衡。
一套汉字电报码能包含多少字符?
理论上,四位数字编码共有10的4次方,即10000个不同的组合(从0000到9999)。但这并不意味着一套汉字电报码能够表示整整10000个独立的汉字。
编码范围
汉字电报码的代码范围是0000至9999。
实际收录字符数
在实际应用的汉字电报码本中,这10000个代码并不会全部用于表示汉字。一部分代码会被用来表示:
- 常用汉字: 这是码本的主体,收录了数千个最常用的汉字。不同的版本的码本收录的汉字数量略有差异,但通常都能满足日常及业务通信的需求。
- 标点符号: 各种中文及西文标点符号,如逗号、句号、顿号、感叹号等,都有各自独立的四位数字代码。
- 特殊功能码: 一些代码用于表示特殊含义或控制功能,例如数字开始/结束标记、字母开始/结束标记、换行、空格、日期符号等。
- 备用或未分配代码: 部分代码可能未被分配给任何字符,留作备用或特定内部使用。
因此,一套标准的汉字电报码本实际收录并能通过四位数字直接表示的“汉字”数量,通常在七八千字左右,加上标点和功能码,总的可用符号数构成了整个电报编码系统。
汉字电报码在哪里查找?
要使用汉字电报码进行编码或解码,必须依靠专门的查找工具,这就是“电报码本”,也称为“电报密码本”。
纸质电报码本
在电报盛行的年代,电报码本通常是一本厚厚的纸质书籍。它分为两大部分:
- 查码部分: 这一部分用于将汉字转换为数字代码。组织方式多样,常见的有按部首、笔画或读音(如汉字拼音首字母)来索引汉字。用户找到要查询的汉字,在其条目下就能看到对应的四位数字电报码。
- 译码部分: 这一部分用于将收到的数字代码还原为汉字。通常是按数字代码顺序(从0000到9999)排列。用户收到一串数字,按照四位一组截取,然后根据这四位数字在这部分查找,就能找到对应的汉字或符号。
现代虽然电报不普及,但其编码规则是公开的,可以在一些历史文献、标准文档或特定数据库中找到对应的映射表。然而,最原始、最标准、最方便人工查找的载体就是当时出版发行的纸质电报码本。
码本的组织方式
为了提高查找效率,码本的组织方式经过精心设计。例如,在查码部分,汉字可能首先按部首分类,同部首的字再按笔画排序;或者按汉字拼音首字母分类,再按声调和韵母排序。每找到一个汉字条目,旁边会直接列出其四位数字电报码。译码部分则非常直接,就是按数字代码0000, 0001, 0002…9999的顺序,每个代码后列出其代表的汉字或符号。操作员需要在这两部分之间快速切换进行编码和解码工作。
如何使用汉字电报码发送信息?(编码过程)
使用汉字电报码发送中文信息是一个将文本信息手工或半自动转换为数字序列的过程,主要依赖于电报码本的查找。
第一步:查阅码本
发报员(或委托发电报的人)手持需要发送的中文文本原稿。他们需要对原稿中的每一个汉字、每一个标点符号,甚至需要发送的数字(如果不是作为文字内容而是作为数值发送),逐一查阅电报码本的“查码部分”。
例如,要发送“你好!”:
- 查找“你”字,找到其对应的四位数字码,比如是1325。
- 查找“好”字,找到其对应的四位数字码,比如是0059。
- 查找“!”符号,找到其对应的四位数字码,比如是0081。
第二步:转换为数字串
将查到的每一个字符的四位数字码按原稿顺序排列起来,形成一个连续的数字串。
原文:“你好!”
转换为数字串:“132500590081”
如果是发送数字,如“价格150元”,则需要用特定的方式表示数字。一种常见方式是使用数字起始码和终止码,或者直接有表示数字0-9的码以及小数点、百分号等的码。例如,假设数字起始码是8888,数字终止码是9990,数字1-0的码分别是0001-0010(这只是假设的例子,实际码本有具体规定)。那么“150”可能被编码为“88880001000500109990”。所以,“价格150元”需要将每个汉字和符号都查码,数字序列也要按规则编码。
第三步:提交并传输
将转换好的纯数字串提交给电报局的发送操作员。发送操作员会使用电报机(如摩尔斯电键或电传打字机)将这个数字串转换为电报信号进行传输。传输的不再是汉字图形,而仅仅是10个数字0-9的序列以及可能的间隔信号。
整个编码过程是字符到数字的严格一对一映射,是发报方将可读文本转化为可传输数字格式的关键步骤。
收到电报后如何理解信息?(解码过程)
接收端收到电报信号后,需要将传输过来的数字序列还原成原始的中文文本,这个过程是编码的逆过程,同样依赖于电报码本的查找。
第一步:接收数字串
收报员操作电报接收设备,将接收到的电信号转换回可见的数字或打印在纸带上。例如,收到的是一长串数字“132500590081”。
第二步:查阅码本还原字符
收报员或专门的译电员拿到这份数字串后,他们会以四位数字为一组进行截取,然后逐组查阅电报码本的“译码部分”(按数字顺序排列的部分)。
- 取第一组数字“1325”,在译码部分查找1325对应的字符,找到是“你”。
- 取第二组数字“0059”,在译码部分查找0059对应的字符,找到是“好”。
- 取第三组数字“0081”,在译码部分查找0081对应的字符,找到是“!”。
如果是中间遇到了数字序列的编码(如假设的8888…9990),译电员则会根据码本的规定识别出这是一串数字,并将其内部的数字码还原为实际的数字。
第三步:组合成原文
将查到的字符按照数字串的顺序排列组合起来,就还原出了原始的中文电报内容。
收到的数字串:“132500590081”
还原的文本:“你好!”
解码过程是数字到字符的严格一对一映射,是收报方将接收到的数字格式还原为可读文本的关键步骤。整个电报通信的准确性很大程度上取决于电报码本的标准化、查找的准确性以及传输过程中数字的完整性。
除了汉字,数字和标点如何表示?
电报通信除了汉字,还需要传输数字、标点符号以及一些控制信息。汉字电报码系统为此设计了额外的编码规则。
数字的表示
在中文电报中,数字的表示有特定的方法。一种常见的方式是使用一对特殊的四位代码来标记数字的开始和结束,而数字0-9本身也有对应的四位代码。例如:
假设
数字开始码 = 8888
数字结束码 = 9990
数字 1 的码 = 0001
数字 5 的码 = 0005
数字 0 的码 = 0010 (注意,0不一定是0000)
那么发送数字“150”,编码串将是:8888 0001 0005 0010 9990。
(请注意,这里的具体代码是示例,实际码本有具体规定)。
收报方看到8888就知道接下来是一串数字代码,看到9990就知道数字串结束了,然后将中间的数字代码逐一译回实际的数字。这种方式可以避免数字被误解为汉字,也能清晰地区分文本内容中的数字部分。
标点符号及特殊功能码
常用的中文及西文标点符号,如句号(。)、逗号(,)、顿号(、)、问号(?)、感叹号(!)等,都在汉字电报码本中有自己独立的四位数字代码,就像汉字一样。
此外,还有一些特殊的四位代码用于表示:
- 字母开始/结束:用于发送英文缩写或专有名词时,表明接下来是一串字母代码(字母也有单独的电报代码)。
- 空格或分词:虽然中文没有天然空格,但在电报中可能需要通过代码表示间隔。
- 换行或分段:表示电报内容的段落分隔。
- 日期、时间等特定格式标记。
这些符号和功能码占据了10000个代码中的一部分,它们是确保电报内容完整、格式正确的必要组成部分。整个汉字电报码系统是一个包含汉字、数字、标点和控制符的综合编码体系,共同服务于那个特定时代的信息传输需求。
汉字电报码是特定历史时期通信技术的产物,它以一种现在看来繁琐,但在当时却高效可靠的方式,解决了中文信息在带宽和技术都有限的电报系统上传输的难题。其核心机制在于严格的字符与数字代码的一一对应,以及一套完整的编码、译码查找工具(码本)。