“ 文化交流沟通加速了地球文明的发展进程”
01
—
硅基人影响向的地球文明
硅基人1_2号很有想法,他发现地球人的语言在形式上是线性的(语言或者语句是从开始到结束形成一个线性序列,无论是说出来还是写出来都是如此),但是内在语义却是跳跃的、网状的、互相关联的;word2vec只是试图建模相邻词汇这种关系,在搭建地球子文明之间桥梁的时候,必定不是几个词就可以完成的;大篇幅的描述或者对话是难以避免的,所以应该把地球人语言以语块(即句子)编码为一个向量,然后再将这个向量解码为另一个语言的句子,实现序列到序列的映射(seq2seq),也就实现了不同语言之间的翻译。
上图中把“how are you ?”这个因为句子中的四个词语(“?”也算一个)压缩(encoder就是编码压缩)到“?”之后的一个向量中,然后在decoder层对上文解码,生成(这个过程就是利用设计的模型结构和对词语的表示等,对翻译之后的词进行预测,原理是基本数学原理是计算条件概率)对应的词“你好吗”。
句子有长有短,每个词的高维向量后面都需要有一个隐藏层神经元做一些数据处理和激活函数的非线性操作;硅基人再次对模型做了简化:规定句子长度,长的截断,短的补0(在向量里面,不同维度都置为0或者置为某个特殊值,表示句子的平均语义或者不表示任何意思)。同时硅基人1_2号还巧妙地设计了自回归这种模式。
【下图“=”左侧是自回归结构,右侧是将此循环展开之后的结构】:
所谓自回归就是自我递归,在硅基人1_1号设计的神经网络里面每个输入的背后隐层不共享,最后对各个隐层做一些处理然后输出。硅基人1_2号设计的模型中允许序列中的各个字共享隐层。然后不断地利用该隐层对当前输入和历史输入做取舍并激活,然后完成输出,利用序列末端时刻的隐层状态作为整个序列的表示,然后解码,解码的过程跟编码的时候类似把上一个时刻的隐状态和上一个时刻的输出及上线文向量c作为当前时刻的输入,不断解码目标序列:
现在,硅基人1_2号成功设计了理论上完全适用于翻译的模型结构,剩下的就是需要数据来驱动模型学习。硅基人的探测游移于地球各个区域,基于不同语言有着共同的物理基础,加上对不同语言在使用时的场景、表情等的比对,硅基人寻找到了一几大主要地球文明的语言之间大批平行语料,也就是标注数据,再简单点说就是一种语言及其在另一种语言当中的翻译,这样的数据以句子对的形式存在。
硅基人的影响主要针对当时的北半球。硅基人想通过这种方式(将不同语言所代表的的文化、文明翻译成其他文明的文字,然后以著作和民间传说的流传方式,潜移默化地影响文明的探索和交流)担当不同文明之间桥梁的角色,加强地球各文明之间的交流和促进。因为硅基人甚知,闭关锁国、单独发展难以进化出更高等文明。
同时,由于地表文明处在发展初期,对所处世界的物理认识严重不足,各个文明对未知现象的解释多诉诸于神明和宗教。为了使得硅基文明的计划(让地球各个子文明可以互通有无,相互沟通,更快地达到可以与硅基文明共同进化的水平)得以顺利实施,硅基文明在当时的地球文明各地创建了不同的宗教或者神话,宗教传播的思想或书籍以及口口相传的神话故事都是经过硅基文明翻译和修改之后以适合当地文化发展的形式出现。比如当时地球文明的东方文明(中国)相对繁盛,军事力量和农业发展比较发达,硅基文明将东方文明的一些先进的思想和科学文化技术进行翻译,并将翻译之后的思想或者文化通过文明代理人(一般是宗教创始人,受到硅基人的深度影响),使之“顿悟”到这种番外文化,从而以宗教或者神话故事的形式传播给大众)传播给本邦人类。当然,有时候不只是番外文化,也有超时代的文化和智慧。
慢慢地随着时间的积累,等到子文明发展到一定程度就会去探索神话故事的真相,同时,宗教中的善与美、先进与超自然也在某种程度上引领者本地文明的发展。在这种力量的影响下,当时的地球各区域文明的确出现了文化与经济的交流,比如佛教的流传、西汉的丝绸之路、再到后来的郑和下西洋;也有马可波罗游记等对异域文化的描述和向往,更是直接刺激了本邦文化发展与文明扩张。但是地区文明之间的交流和碰撞大多数以暴力战争的形式进行着。比如几乎同时期的几个大帝国包括汉帝国、罗马帝国、安息帝国和贵霜帝国等。
张骞出使西域图
贵霜国和汉帝国被高寒的帕米尔高原分割,两个子文明多少年间少有交流,正是在硅基人的影响下,贵霜国的人听闻了汉帝国物产丰饶,人民生活富足,而且有着更先进的科学与文化;同时汉帝国民间也渐渐流传西域并非皆是蛮夷,也有文明存在。时间来到了公元1世纪,贵霜帝国和东汉产生了交集,即两者在西域地带发生过一次交手,但是这次交手却并不是平和的交流促进。西汉被篡夺后,王莽的新朝并没有做出多少政绩,反而使得西域这块地区成了无主之地,在刘秀建立东汉后,由于百废待兴,于是对西域的态度和北匈奴一样,都是采取韬光养晦的政策,不过到了明帝,章帝时期,“吏得其人,民乐其业,远近畏服,户口增强,天下安定,百姓殷富”,由此东汉开始在北方和西方均采取了行动,而对这一切有着亲身体验的便是著名的班超,他既是汉人彻底击溃匈奴人,封狼燕然的见证人,也是恢复汉朝在西域都护的最大功臣,而汉朝的这些武功也让当时的另一个帝国有所忌惮,那就是贵霜帝国,于是汉和帝三年,欺负汉朝孤儿寡母的贵霜帝国想要让东汉和亲,达成联姻结盟,不过这种送女人保和平的事汉朝一向是很敏感的,最终双方也有了一次交手,贵霜帝国东越葱岭攻打班超,不过最终班超坚守不出同时又设伏杀了贵霜帝国外出求援的使者,逼退了贵霜帝国。贵霜帝国既然是东越葱岭打班超,其自然就是中亚的一个国家,因为过了葱岭即今新疆的帕米尔高原就是中亚了,而其建立者正是当年张骞出使西域所要联合抗击匈奴人的月氏人后裔所创,它的起步几乎是与东汉同时的,因此东汉达到极盛的汉和帝永元年间也正是贵霜帝国的黄金期,因此才这么有底气让东汉和亲。不过其后来也和东汉一样没能强盛多久,最终中亚的领土逐步逐步丢失殆尽,仅保留阿富汗,巴基斯坦一带,公元五世纪被信仰拜火教的游牧民族彻底覆灭。
同贵霜帝国一样,安息帝国起初存在感也不是很强,不过相比于贵霜帝国同汉朝若即若离的关系,安息帝国对四大帝国中另一个的罗马则是一个心腹大患。这正是由于汉帝国与罗马帝国之间的丝绸之路的往来贸易催生的。安息帝国是一个由不同文化组成的国家,它在很大程度上吸纳了包括波斯文化、希腊文化及其他地区文化的艺术、建筑、宗教信仰及皇室标记。随着安息帝国的扩张,帝国首都的所在地也沿着底格里斯河由尼萨迁往泰西封,其他多个城市也曾成为首都。这也成为了硅基人语言影响的成功范例之一。但是安息帝国地处罗马帝国与汉帝国丝绸之路的必经之地,罗马帝国与汉帝国往来的经济产品经常被安息帝国扣下,严重影响了罗马帝国的利益。亚历山大征服波斯帝国后,建立了强大的亚历山大帝国,亚历山大死后,帝国的波斯部分由其部将塞琉古一世继承,建立塞琉古王国,不过国家很快又出现了分裂,帕提亚人在伊朗高原一带独立,并逐步蚕食四面受敌的塞琉古王国,最终连同在西面不断蚕食的罗马人一道,将强盛一时的塞琉古王国送入了历史中,由此帕提亚人也和罗马人成为了西亚的邻居,不过与罗马人做邻居是要承担压力的,在这一点上曾经被亡国灭种国土上还要撒盐的腓尼基人应该深有感触,公元二世纪,罗马帝国轴心时代的五贤帝时期来到,也基本宣告这场断断续续对峙了百年的民族战争即将进入尾声。五贤帝时期,罗马帝国综合国力得到了很大的发展,而相比之下帕提亚的发展则陷入了瓶颈,而同时罗马帝国又是一个经常“不小心”擦枪走火的邻居,公元三世纪初,经过罗马皇帝塞维鲁及卡拉卡拉父子俩的两次重大打击,帕提亚人终于走到了尽头,伊朗高原的原主人波斯人最终抓住这个时机,送了帕提亚帝国(安息帝国)最后一程,萨珊帝国的新君主踩着旧君主的头颅登上了君王的宝座,完成了这片土地帝国的接力。
这种情况是硅基人没有预料到的。按照硅基人的计算,模型产生的文化影响会如同催化剂一般加强相邻文明的平和交流与沟通,进而不断地进步产生更先进文明。但当融合与交汇发展到一定规模,暴力战争总会成为主旋律。而硅基人预测到地球文明未来在更大范围内实现文明共同演化的可能性极低… …
当然了,除了对文化整体的影响,硅基文明还会随机地影响各个子文明不同时期的极少数人的心智(通过影响脑电波影响意识),将硅基文明先进的数理文明的种子撒在了地球文明的土壤,这种影响就像出现在梦境中的画面,亦真亦幻;这样做也是做到符号人类的生物构造(因为人类本来就会在梦境中产生一些奇怪的意识),这也就是各个地区的文明在不同时期出现的超时代的人类,欧几里得、达芬奇、牛顿、东方的老庄哲学皆出于此,而这种影响一直在持续。
此时身处遥远的猎户座α星的硅基人地球探测分队一直关注着地球的发展,他们开始思考是不是最初从语言切入的出发点就出了问题;另一方面,技术官也在随着问题的产生和对优化其模型结构。但是硅基人看到,地球文明的发展逐渐步入指数爆炸式发展的前夜;这也正是硅基文明坚守地球与地球文明共同发展了大约两千年的原因。地球文明在此期间经历了农业文明到工业文明的过渡,而且预计这种文明的升级迭代速度会越来越快。时间来到了公元十九世纪,这个时候的地球人已经开始探索电、磁与太空,麦克斯韦等一批影响地球人类历史的角色登上舞台。
麦克斯韦夫妇
虽然暴力冲突多有发生,但是从结果来看,地球文明的确在融合与交流中获得了质的飞跃。硅基人决定再次派出星际飞船
02
—
掉书袋
【1】 上述情述是对seq2seq和lstm(long-short term memory)的简单演义介绍,其中seq2seq是个通用模型,其实现多基于rnn(recurrent neural network)这种网络结构,而lstm是rnn的一种优秀的变种。
【2】seq2seq在语言翻译任务上效果较好,实践过程中还有诸多trick,这里不做赘述;seq2seq也可以称为:enc-dec模型或encoder-decoder模型或编解码模型或端到端模型,除了结构上天然的适合做翻译任务,其中间状态(encoder的输出)可以拿出来作为句子的表示,所以后续还有更加优秀的模型基于encoder-decoder模型做表示学习。
03
—
参考文献
1. lstm详解:scolah.github.io/posts/2015-08-understanding-lstms/
2. sutskever, ilya, oriol vinyals, and quoc v. le. ”sequence to sequence learning with neural networks.” advances in neural information processing systems 27 (2014).
3. fabbri, mirco, and gianluca moro. ”dow jones trading with deep learning: the unreasonable effectiveness of recurrent neural networks.” data. 2018.
4. hochreiter, s, and j. schmidhuber. “long short-term memory.” neural computation 9.8(1997):1735-1780.
01
—
硅基人影响向的地球文明
硅基人1_2号很有想法,他发现地球人的语言在形式上是线性的(语言或者语句是从开始到结束形成一个线性序列,无论是说出来还是写出来都是如此),但是内在语义却是跳跃的、网状的、互相关联的;word2vec只是试图建模相邻词汇这种关系,在搭建地球子文明之间桥梁的时候,必定不是几个词就可以完成的;大篇幅的描述或者对话是难以避免的,所以应该把地球人语言以语块(即句子)编码为一个向量,然后再将这个向量解码为另一个语言的句子,实现序列到序列的映射(seq2seq),也就实现了不同语言之间的翻译。
上图中把“how are you ?”这个因为句子中的四个词语(“?”也算一个)压缩(encoder就是编码压缩)到“?”之后的一个向量中,然后在decoder层对上文解码,生成(这个过程就是利用设计的模型结构和对词语的表示等,对翻译之后的词进行预测,原理是基本数学原理是计算条件概率)对应的词“你好吗”。
句子有长有短,每个词的高维向量后面都需要有一个隐藏层神经元做一些数据处理和激活函数的非线性操作;硅基人再次对模型做了简化:规定句子长度,长的截断,短的补0(在向量里面,不同维度都置为0或者置为某个特殊值,表示句子的平均语义或者不表示任何意思)。同时硅基人1_2号还巧妙地设计了自回归这种模式。
【下图“=”左侧是自回归结构,右侧是将此循环展开之后的结构】:
所谓自回归就是自我递归,在硅基人1_1号设计的神经网络里面每个输入的背后隐层不共享,最后对各个隐层做一些处理然后输出。硅基人1_2号设计的模型中允许序列中的各个字共享隐层。然后不断地利用该隐层对当前输入和历史输入做取舍并激活,然后完成输出,利用序列末端时刻的隐层状态作为整个序列的表示,然后解码,解码的过程跟编码的时候类似把上一个时刻的隐状态和上一个时刻的输出及上线文向量c作为当前时刻的输入,不断解码目标序列:
现在,硅基人1_2号成功设计了理论上完全适用于翻译的模型结构,剩下的就是需要数据来驱动模型学习。硅基人的探测游移于地球各个区域,基于不同语言有着共同的物理基础,加上对不同语言在使用时的场景、表情等的比对,硅基人寻找到了一几大主要地球文明的语言之间大批平行语料,也就是标注数据,再简单点说就是一种语言及其在另一种语言当中的翻译,这样的数据以句子对的形式存在。
硅基人的影响主要针对当时的北半球。硅基人想通过这种方式(将不同语言所代表的的文化、文明翻译成其他文明的文字,然后以著作和民间传说的流传方式,潜移默化地影响文明的探索和交流)担当不同文明之间桥梁的角色,加强地球各文明之间的交流和促进。因为硅基人甚知,闭关锁国、单独发展难以进化出更高等文明。
同时,由于地表文明处在发展初期,对所处世界的物理认识严重不足,各个文明对未知现象的解释多诉诸于神明和宗教。为了使得硅基文明的计划(让地球各个子文明可以互通有无,相互沟通,更快地达到可以与硅基文明共同进化的水平)得以顺利实施,硅基文明在当时的地球文明各地创建了不同的宗教或者神话,宗教传播的思想或书籍以及口口相传的神话故事都是经过硅基文明翻译和修改之后以适合当地文化发展的形式出现。比如当时地球文明的东方文明(中国)相对繁盛,军事力量和农业发展比较发达,硅基文明将东方文明的一些先进的思想和科学文化技术进行翻译,并将翻译之后的思想或者文化通过文明代理人(一般是宗教创始人,受到硅基人的深度影响),使之“顿悟”到这种番外文化,从而以宗教或者神话故事的形式传播给大众)传播给本邦人类。当然,有时候不只是番外文化,也有超时代的文化和智慧。
慢慢地随着时间的积累,等到子文明发展到一定程度就会去探索神话故事的真相,同时,宗教中的善与美、先进与超自然也在某种程度上引领者本地文明的发展。在这种力量的影响下,当时的地球各区域文明的确出现了文化与经济的交流,比如佛教的流传、西汉的丝绸之路、再到后来的郑和下西洋;也有马可波罗游记等对异域文化的描述和向往,更是直接刺激了本邦文化发展与文明扩张。但是地区文明之间的交流和碰撞大多数以暴力战争的形式进行着。比如几乎同时期的几个大帝国包括汉帝国、罗马帝国、安息帝国和贵霜帝国等。
张骞出使西域图
贵霜国和汉帝国被高寒的帕米尔高原分割,两个子文明多少年间少有交流,正是在硅基人的影响下,贵霜国的人听闻了汉帝国物产丰饶,人民生活富足,而且有着更先进的科学与文化;同时汉帝国民间也渐渐流传西域并非皆是蛮夷,也有文明存在。时间来到了公元1世纪,贵霜帝国和东汉产生了交集,即两者在西域地带发生过一次交手,但是这次交手却并不是平和的交流促进。西汉被篡夺后,王莽的新朝并没有做出多少政绩,反而使得西域这块地区成了无主之地,在刘秀建立东汉后,由于百废待兴,于是对西域的态度和北匈奴一样,都是采取韬光养晦的政策,不过到了明帝,章帝时期,“吏得其人,民乐其业,远近畏服,户口增强,天下安定,百姓殷富”,由此东汉开始在北方和西方均采取了行动,而对这一切有着亲身体验的便是著名的班超,他既是汉人彻底击溃匈奴人,封狼燕然的见证人,也是恢复汉朝在西域都护的最大功臣,而汉朝的这些武功也让当时的另一个帝国有所忌惮,那就是贵霜帝国,于是汉和帝三年,欺负汉朝孤儿寡母的贵霜帝国想要让东汉和亲,达成联姻结盟,不过这种送女人保和平的事汉朝一向是很敏感的,最终双方也有了一次交手,贵霜帝国东越葱岭攻打班超,不过最终班超坚守不出同时又设伏杀了贵霜帝国外出求援的使者,逼退了贵霜帝国。贵霜帝国既然是东越葱岭打班超,其自然就是中亚的一个国家,因为过了葱岭即今新疆的帕米尔高原就是中亚了,而其建立者正是当年张骞出使西域所要联合抗击匈奴人的月氏人后裔所创,它的起步几乎是与东汉同时的,因此东汉达到极盛的汉和帝永元年间也正是贵霜帝国的黄金期,因此才这么有底气让东汉和亲。不过其后来也和东汉一样没能强盛多久,最终中亚的领土逐步逐步丢失殆尽,仅保留阿富汗,巴基斯坦一带,公元五世纪被信仰拜火教的游牧民族彻底覆灭。
同贵霜帝国一样,安息帝国起初存在感也不是很强,不过相比于贵霜帝国同汉朝若即若离的关系,安息帝国对四大帝国中另一个的罗马则是一个心腹大患。这正是由于汉帝国与罗马帝国之间的丝绸之路的往来贸易催生的。安息帝国是一个由不同文化组成的国家,它在很大程度上吸纳了包括波斯文化、希腊文化及其他地区文化的艺术、建筑、宗教信仰及皇室标记。随着安息帝国的扩张,帝国首都的所在地也沿着底格里斯河由尼萨迁往泰西封,其他多个城市也曾成为首都。这也成为了硅基人语言影响的成功范例之一。但是安息帝国地处罗马帝国与汉帝国丝绸之路的必经之地,罗马帝国与汉帝国往来的经济产品经常被安息帝国扣下,严重影响了罗马帝国的利益。亚历山大征服波斯帝国后,建立了强大的亚历山大帝国,亚历山大死后,帝国的波斯部分由其部将塞琉古一世继承,建立塞琉古王国,不过国家很快又出现了分裂,帕提亚人在伊朗高原一带独立,并逐步蚕食四面受敌的塞琉古王国,最终连同在西面不断蚕食的罗马人一道,将强盛一时的塞琉古王国送入了历史中,由此帕提亚人也和罗马人成为了西亚的邻居,不过与罗马人做邻居是要承担压力的,在这一点上曾经被亡国灭种国土上还要撒盐的腓尼基人应该深有感触,公元二世纪,罗马帝国轴心时代的五贤帝时期来到,也基本宣告这场断断续续对峙了百年的民族战争即将进入尾声。五贤帝时期,罗马帝国综合国力得到了很大的发展,而相比之下帕提亚的发展则陷入了瓶颈,而同时罗马帝国又是一个经常“不小心”擦枪走火的邻居,公元三世纪初,经过罗马皇帝塞维鲁及卡拉卡拉父子俩的两次重大打击,帕提亚人终于走到了尽头,伊朗高原的原主人波斯人最终抓住这个时机,送了帕提亚帝国(安息帝国)最后一程,萨珊帝国的新君主踩着旧君主的头颅登上了君王的宝座,完成了这片土地帝国的接力。
这种情况是硅基人没有预料到的。按照硅基人的计算,模型产生的文化影响会如同催化剂一般加强相邻文明的平和交流与沟通,进而不断地进步产生更先进文明。但当融合与交汇发展到一定规模,暴力战争总会成为主旋律。而硅基人预测到地球文明未来在更大范围内实现文明共同演化的可能性极低… …
当然了,除了对文化整体的影响,硅基文明还会随机地影响各个子文明不同时期的极少数人的心智(通过影响脑电波影响意识),将硅基文明先进的数理文明的种子撒在了地球文明的土壤,这种影响就像出现在梦境中的画面,亦真亦幻;这样做也是做到符号人类的生物构造(因为人类本来就会在梦境中产生一些奇怪的意识),这也就是各个地区的文明在不同时期出现的超时代的人类,欧几里得、达芬奇、牛顿、东方的老庄哲学皆出于此,而这种影响一直在持续。
此时身处遥远的猎户座α星的硅基人地球探测分队一直关注着地球的发展,他们开始思考是不是最初从语言切入的出发点就出了问题;另一方面,技术官也在随着问题的产生和对优化其模型结构。但是硅基人看到,地球文明的发展逐渐步入指数爆炸式发展的前夜;这也正是硅基文明坚守地球与地球文明共同发展了大约两千年的原因。地球文明在此期间经历了农业文明到工业文明的过渡,而且预计这种文明的升级迭代速度会越来越快。时间来到了公元十九世纪,这个时候的地球人已经开始探索电、磁与太空,麦克斯韦等一批影响地球人类历史的角色登上舞台。
麦克斯韦夫妇
虽然暴力冲突多有发生,但是从结果来看,地球文明的确在融合与交流中获得了质的飞跃。硅基人决定再次派出星际飞船
02
—
掉书袋
【1】 上述情述是对seq2seq和lstm(long-short term memory)的简单演义介绍,其中seq2seq是个通用模型,其实现多基于rnn(recurrent neural network)这种网络结构,而lstm是rnn的一种优秀的变种。
【2】seq2seq在语言翻译任务上效果较好,实践过程中还有诸多trick,这里不做赘述;seq2seq也可以称为:enc-dec模型或encoder-decoder模型或编解码模型或端到端模型,除了结构上天然的适合做翻译任务,其中间状态(encoder的输出)可以拿出来作为句子的表示,所以后续还有更加优秀的模型基于encoder-decoder模型做表示学习。
03
—
参考文献
1. lstm详解:scolah.github.io/posts/2015-08-understanding-lstms/
2. sutskever, ilya, oriol vinyals, and quoc v. le. ”sequence to sequence learning with neural networks.” advances in neural information processing systems 27 (2014).
3. fabbri, mirco, and gianluca moro. ”dow jones trading with deep learning: the unreasonable effectiveness of recurrent neural networks.” data. 2018.
4. hochreiter, s, and j. schmidhuber. “long short-term memory.” neural computation 9.8(1997):1735-1780.