汉语是论人口世界上最大的语言,有十多亿人以汉语为母语:这包括在台湾的二千万、马来西亚的五百万、泰国的五百万、香港的五百万、新加坡的二百万、印度尼西亚的一百万、越南的一百万等。汉语是联合国1945年成立时的五种工作语言之一(1974年又加上了阿拉伯语)。
汉语有七种主要的方言:北方方言约占总人口的四分之三,所覆盖的地域包括中国的东北、华北、西北、山东、河南、湖北和安徽、江苏的长江以北部分、四川、云南和贵州的汉族人聚居区,在另外还有一些北方方言的“孤岛”在福建、广西和海南;吴方言,通行于江苏的长江以南部分、浙江和上海市,人口有七千万,是第二大方言;粤方言,主要流行于广东、广西和海外华人中间,约有六千万人;闽方言,通行于福建、台湾和东南亚诸国,约有六千万人,其中情形十分复杂,到了互不通行的程度,可能是汉人在秦汉时代南侵时与当地的语言交互的结果;湘方言通行于湖南;赣方言通行于江西,这两种方言的特征不太突出,受周围方言的影响较大;还有客家话,主要分布于广东、广西、福建和台湾。这些“方言”之间差别常常是很大——比如北京人听广州人讲话,决不比英国人听法国人讲话轻松,台湾人去听陕西话,也会听得一头雾水。是什么理由语言学仍把这些方言统统归为一种语言?除了长期以来的统一民族、统一文化和统一国家这些因素以外,还有一个重要的原因是文字——汉字。
从商朝的甲古文开始,汉字有三千多年的连续历史,三千多年来汉字的字形、字义的变化都是连续的。与大多数其它语言不同的是,汉字的发展经历了一条象形—表意—形声的途径。这条道路产生了两个主要效应:第一,随着文明的不断发展,语言所要表达的概念不断增加,使得汉字拥有了一个数量庞大的字符集(虽然现代汉语已经不用增加字符来表达新的概念,而是创造新词,这在一定程度上减少了使用的字数)。汉字的庞大的字符集使它显得非常复杂:难学、难记、难用;第二,历史上的汉字作为表意文字(ideograph),文字与语音没有直接关系,无论用哪种语言或方言去读,意义没有变化。这是几千年来各种口语分化交熔变迁,而汉字一直作为一种统一的文字被所有人认同的原因。这一优势甚至体现在当它被别的语言借用的时候:哪怕不懂日语的人也能读懂一半意思吧。汉字使操不同口语的人互相交流成为可能,而隔膜是统一的主要障碍。
后来,随着汉字的演变,汉字已不再是纯粹的表意文字,许慎『说文解字』中的9353字里面,“形声字”占了80%以上,“会意字”不到20%,而甲骨文中形声字仅占20%多。特别是近年来多音词的比例急剧上升,汉字已向表音文字方向发展。(关于“形声字”、“会意字”,后面还要提到。)
现代汉语的文字仍有几万字之多,但是使用频率极不平衡。据北京语言学院1985年的统计结果,最常出现的前十个字及其出现频率为:
的 4.16% (你每说二十五个字就要说一个!)
一 1.84%
了 1.71%
是 1.52%
不 1.37%
我 1.28%
在 1.08%
有 0.98%
人 0.97%
这 0.93%
累计 15.85%
前100字的累计字频已达47.34%,500字到了79.76%,2000字覆盖了98.07%,如果你认识4000字(就象我一样),你读一万个字只有四个不认得(当然读我写的东西再多你也不会有不认得的字,因为我认的字和你一样多)。
语言学院还统计了词:共计出31159个不同的词,其中单音节词(一个字的)占12.2%,双音节词73.6%,三音节词7.6%,四音节词6.4%五以上的占0.2%,平均词长2.09。前100词的累计频率为41.7%,2000词为82.2%,9000词为95.85%。不同汉字的构词能力(与别的字组成新词的能力)也不一样,最多的是“子”字,构词668个。
汉字是怎样起源、怎样演变的?据汉代纬书『春秋元命苞』:“仓颉生而能书,及受河图录字,于是穷天地之变,仰视奎星圜曲之势,俯察鱼文鸟语,山川指掌,而创文字。”文字虽美,实无所据。传说仓颉为黄帝的史官,而黄帝的生存年代及其事迹都属传说史的范围,具体内容多不可究,“仓颉造字”实在太玄了。又『易经』云:“上古结绳而治,后世圣卜易之以书契。”,意思是说从前的人结绳记事,后来有“圣人”把这改造成了文字。绳结与文字差距甚大,不以为然也。
后世的汉文字学家一般持两种看法:起源于原始氏族社会晚期的陶器符号,或起源于原始图画。得到考古支持的商代甲骨文最早出现在三千三百年前,这比古埃及的文字及两河流域的苏美尔文字都要晚近二千年,汉字学家因而不服,他们认为最早的甲骨文被发现时已有了一定程度的会意和形声成分,所以文字的出现应当比那时早得多(范文澜:『中国通史』,人民出版社1954),因而推断说例如山东龙山文化中的陶器符号可能是原始的文字(龙山文化据今四至五千年)。这些目前仍缺少考古证据和足够的研究。顺便提一句,至今共发现了五千个以上的甲骨文单字,其中可以认识的约有一千七百字。
总之不管从哪儿来、来了多久,从“帝盘庚迁殷”(约在公元前1312年) 时开始,汉字开始了它的长达三千多年的连续发展史,中华文明史也开始了连续至今的文字记载。可以想象,一开始的象形文字(hieroglyphs)工作得不错。可是随着汉语的不断丰富,有些语言不能用形象表达了,怎么办?中国人想出了一种办法叫做“形声字”:用两部分拼成一个字,一半表示发音一半表示意思(属性),象“中-盅-忠-钟-种-肿,羊-洋-痒-样”之类。这真是一个好办法:既能表达大量的新概念又与旧的文字体系“兼容”,于是大喜,到秦篆时形声字大增,汉字总数已数万,每当出现一种新概念我就发明一个新字来对付你,一字一意,文章简短,节约用纸。汉字的表达能力大大增加,形成了一个完备的文字体系。春秋战国时期的文化大发展与此不无关系。
原来我们从小学习表意文字,觉得从象形文字演变到现在的汉字非常自然,觉得从象形文字演变到拼音文字很不可思议:现在看来后者比前者好象更自然一点。拼音文字的演变想在讨论中、近东语言的时候再提。
作为语言发展历史的一部分,会意字、表音字和通假字也不同程度地存在于汉语中。会意字如“日+月=明,女+子=好”,这类字是在原始象形文字基础上意义的扩展,但是因为表达能力仍受限制,所以它们占的比例也不太大。通假字在古汉语中出现得比现代汉语多得多(如“说-悦”),说明当时人们也想从这方面想办法,后来认识到这不现实。试想,如果所有的抽象概念都用同音异字表示,那文章读起来大概是太累了,而且多半读不懂。事实上没有一种文字能纯粹用这办法解决问题,最多是部分地采用这技术,多了就不灵了。汉字也有少量的表音字,如“阿”,没有任何意义,只表示一个音节。自春秋时期开始形声字得到了极大的发展,具有了很强的表达能力,这可能反而抑制了向表音文字的进一步发展——表音文字在汉语中至今仍处于初级阶段。
http://www.xici.net/b254244/d19987893.htm http://zhidao.baidu.com/question/1445326.html