样,哪怕只有高中水平的知识,也可通读大部分专业论文。
这便是二者之间根本性的差异!
而这也就意味着,AI模型在处理中文时,参数量和计算量更少,训练和推理过程更高效!
这可不是苏定平胡说,而是有具体的现实例子作为参考。
后世的中文模型仅需西方资金的百分之一,就能实现高水准输出。
即便是考虑到汇率差和人工成本,这个数据也足够夸张。
这变是得益于汉字组合新词时,根本无需创造全新词汇,只需要通过有限字根灵活衍生,便可减少模型的学习负担。
除此之外汉字本身是“形、声、义”三维一体的符号,每个字均可视为一个知识节点,天然就支持语义网络构建。
上个世纪有个科学家提出了著名的信息熵理论,简单来说,就是一个最基础的字节所能够承载的信息量。
而中文最基础的汉字所能携带的信息量是其他表音文字的两倍以上!
除此之外,中文的词根化特征会让模型更容易识别模式和生成文本。
最简单的一个例子,星期一,星期二,只需要知道这个是指代日期的词汇,就很容易明白后续的词汇到底是什么意思,甚至推断出来了往后该怎么描述而英文当中,每周的每个日期都是完全不同的词汇,这就给ai的训练带来了极大的难度。
至于所谓的英文的描述更加精准这种话,说出来更是搞笑所谓的更加精准,只不过是用全新的词汇去命名每一个全新的事物。
但问题是,字母就这么多,新事物却是越来越多,这就最终导致的结果就是越来越繁杂的词典和更高的学习难度。
原先汉语当中也会用很多生僻字去专门描述每一种不同的事物。
比如骊就表示纯黑色的马,只不过这样的描述方法早就被淘汰在历史的长河之中了。
最后,中文的高信息密度,则是可以支持构建仿人脑架构的AI系统
本章未完,请点击"下一页"继续阅读! 第5页 / 共7页