毕节信息港
旅游
当前位置:首页 > 旅游

融智学原创文集16自然语言处理的总量控制

发布时间:2019-12-05 09:10:58 编辑:笔名

《融智学原创文集》 16 自然语言处理的总量控制模型

邹晓辉狒狒

加入时间: 2005/10/30文章: 437来自: 珠海

邹晓辉 写道:

中国人工智能学会第十一届全国学术大会2005年8月25日录用论文

自然语言处理的总量控制模型

——形式化标准平台

摘要 除生物基因外,美国标准信息交换码(ASCII)是成功的代码。如改进中文处理基本单元,国际统一代码(Unicode)将会更好。本文试图提供一个逻辑和数学上相对完备而堪称标准信息交换码(Z-ASCII)的基因文本数据库。那时就能更好地分析和解释各个中文处理单元的含义,同时,也不仅限于支持输入、输出、交换等固有的用法。基于Z-ASCII的中文处理单元的新用法是简单且有效的。中文与英文的区别相当大,对英文信息处理系统足够的ASCII,对中文信息处理系统却远远不够,因为,音节总量控制模型(GSCM)和文本总量控制模型(GTCM)在前者是一致的可在后者却不一致而需采用与GTCM相应的GB或Unicode——因其太粗放而没充分顾及汉语特点,要提高中文信息处理智能化水平还需基于Z-ASCII。

关键词 美国标准信息交换码 国际统一代码 音节总量控制模型 文本总量控制模型 标准信息交换码 间接形式化

1.引言

在过去几年,人工智能的研究取得了长足的进展[以中文信息处理为例:1,基于微型中文造字产生器的汉字基因芯片的产品化;2,电子辞典和计算机辅助翻译系统的产品越做越好,已有完全支持中文的计算机汇编语言(如:O语言)]

。然而也还有很多重要的问题没有得到满意的解决[3,中文信息处理的基础研究薄弱(如:汉语语言学领域“各种本位说之争”和计算语言学领域“各种资源库之战”);4,GB与ASCII之间在信息处理效率上的巨大差距仍然存在,而Unicode汉字处理部分几乎仍沿用GB的作法;5, 汉语形式化困难重重,机器翻译的消歧难题依然存在]。有鉴于此[1][2][3][4],本文提出了一种形式化标准平台——自然语言处理(含;中文信息处理)的总量控制模型,即:音节总量控制模型(GSCM)和文本总量控制模型(GTCM)及其底层技术规范——标准信息交换码(Z-ASCII)[5][6][7][8]。

概述:本文属于自然语言处理与理解领域,涉及:机器翻译,复杂性,信息化与智能化。其应用,一方面,涉及:计算机辅助教育,如:计算机辅助汉语(英语、双语乃至多语)教学;另一方面,涉及:中文信息处理产品标准与产业发展,如:改进GB和Unicode中文信息处理基本结构单元的部分。特殊性:直接采用工程融智学8大系统工程实验的前沿科技成果[9][10],探讨长期困扰自然语言处理与理解和机器翻译,复杂性,信息化与智能化等领域的消歧难题[11][12]。重要性:为解决消岐[涉及:模式识别、语言理解、知识表达(典型实例:机器翻译)]的技术瓶颈提供理论模型、计算和操作的系统工程技术方法及底层技术规范。研究途径:1、梳理工程融智学前

孩子消化不好怎么办宝宝消化不良吃什么好小孩儿不爱吃饭

农垦第二医院怎么样
鄂尔多斯市第二人民医院预约挂号
银川整形美容医院
河南哪家医院治疗癫痫病
汕头包皮过长上哪个医院
友情链接