“ 真的能一次性全部通过吗?”
01—全体舰队通过第二个拉格朗日点
很快,舰队来到了一片天体密度较之前大几倍的空间,舰长迅速指挥探测人员测量前方是否存在拉格朗日点。
在紧张的七八小时的探测以后,探测人员给出了探测结果:前方有几个高度疑似拉格朗日点的位置,但是因为前方天体密度较大,不是十分确定具体的位置;另外还在距离疑似拉格朗日点的位置约0.005光年的位置探测到了另一个引力密集区。
大家明白,引力密集区意味着天体遍布,极有可能是引力走廊的第二个拉格朗日点。众人欢欣鼓舞;同时舰长迅速组织技术人员成立攻坚小组,力求定位第一个拉格朗日点的具体位置,但是随着探测的深入,他们逐渐发现一个奇怪的现象:有一个点基本可以确定拉格朗日点,其周围是三个超大天体,通过给舰船一定的初始速度,舰船可以几乎不依赖任何能量顺利通过这一片天体密集区,还可以依赖三个超大天体的引力纠缠效应将飞船以10倍光速抛射到出去;但是经过计算,这个拉格朗日点单次只允许通行一艘母舰或者1艘巡航舰,这是因为三个超大天体的强大引力交叠在一起,将这个通道压缩地十分狭窄;而且每当有物体通过这个拉格朗日点,三个天体之间的引力会以光速发生一次扰动,表现为这个拉格朗日点位置出现振荡,需要139个开普勒星日才能恢复如初,而且振荡期间引力极不稳定,舰船无法通过(就是每次只能通过一艘舰船,然后通道失效139个开普勒日);这就产生了一个难题:要么寻找其他办法,使得舰队的所有母舰、巡航舰、补给舰等一次性全部通过这片区域,同步通过拉格朗日点,以10倍光速去往引力走廊的下一个拉格朗日点;要么,只通过一艘母舰或者巡航舰作为探测先锋,继续探寻引力走廊的下一个起跳点,但是后者显然风险极大,因为前方未知的任何一个状况都有可能将探险舰摧毁。
看清当前的形式之后,工程人员继续深入探测,以求挖掘出其他可以通行的点;舰长则与其他舰队人员评估方案二——冒险通过一艘巡航舰——的风险!
在讨论和评估的过程中,出现了这么三种观点:
(1)支持冒险:母星开普勒452b危在旦夕,通过一艘起码还有继续寻找铬源的希望,也就意味着开普勒452b还有希望,不能轻易放弃,至于由哪些队员出征探险,那是后话了。
(2)拒绝冒险:从前面的经历来看,如果没有母舰和巡航舰、补给舰之间的相互配合,很难克服遇到的状况;很多大型设备无法在巡航舰上搭载,而母舰也无法具备巡航舰的机动灵活性,更无法在两难的情况下“牺牲小我成就大我”,母舰不容有失,单艘舰船通行实为下下策,需要从长计议。
(3)相信工程人员的能力,相信随行科学家的能力,我们能够找到使得整个舰队一次性顺利通过的方法,但是到底需要等多久或者母星开普勒452b允许我们等多久,这个问题无法逃避;还有,除了探测,还有没有其他办法也尚未可知
bit也陷入了思考。
但是很快事情再次出现了转机:前方探测人员发回新的探测结果,在最明显的那个拉格朗日点附近,仍然存在多个三体星系统,每个三体星系统围成的区域内也有高度疑似拉格朗日点的存在;同时,在这片密集天体背后,在引力纠缠点之前,存在一片引力真空区,同样地,也是由于附近超大天体,导致了这个神奇的引力真空区域的存在。
于是bit很快有了方案:
既然有这样一片区域,那么舰队可以兵分几路,待到通过拉格朗日点挣脱密集天体的引力束缚之后,通过短暂航行,在引力真空区汇合,然后再次出发前往引力纠缠点,借助密集天体的引力纠缠效应,获得10倍光速的星际旅行速度,前往下一个引力出发点!
可问题来了,怎么确定哪些三体星之间存在可通行的拉格朗日点呢?
bit说:思路很简单,但是需要大家的配合。
首先,根据探测人员的数据,确定一个100%确定的可以通过的拉格朗日点,母舰首先通过此点穿过密集天体;那么此时,这个点也就失去了作用,至少在139个开普勒星日之内毫无作用,因为他已经产生了扰动,不允许任何一个巡航舰通过;但是,在母舰通过拉格朗日点的时候,会进行记录,确定到底什么样的三体星系统才能产生如此的拉格朗日点,然后每个三体星系统在是否具备一个可以通行的拉格朗日点这个角度上,都可以被记录的数据进行刻画和表征,比如每个三体星系统有5个关键特征:(1)三体星之间的距离平均值、(2)三体星的引力大小、(3)三体星周围是否存在小卫星、(4)三体星的自传速度及(5)三体星的平均扰动
然后就可以把每一个三体星系统表示为特征空间的一个点,假定待判别的这个三体星系统是a-b-c系统,我们就找在特征空间上距离a-b-c系统最近的k个三体星系统,认为这k个最近的三体星系统在是否具有可通过的拉格朗日点这个问题上具有相似的属性,简单点,近朱者赤近墨者黑,如果这k个三体星系统当中的多数都具备可以通行的拉格朗日点,那么这个a-b-c系统也有可通行的三体星系统;那么...
bit还没来得及继续说,星牛就打断道:从现在的结果来看,只有一个疑似拉格朗日点基本确定可以通过,像你说的,就算真的找到了这样的k个星体系统,这k个也很可能都无法判断他们是否有拉格朗日点,也就没法通过这种类似“投票表决”的方式判断这个a-b-c系统...
bit哈哈一笑:可以通过虚线脉冲(虚线脉冲就像它的名字一样,是断断续续的一段脉冲,可以通过计算使得一段脉冲在经过三体星系统的时候恰好处于无脉冲的区间,这样可以避免这个三体星系统真的存在拉格朗日点,却因为察觉到有脉冲通过而发生扰动的情况)在这个点附近的几个三体星系统进行测量,但是由于每次发射虚线脉冲需要消耗大量能量,我们没办法通过这种方式覆盖更大的范围从而找到足够多的副拉格朗日点让整个舰队一次性通过;通过发射几次虚线脉冲,比方说找到10个三体星系统,他们是否具备让巡航舰或者母舰通行的拉格朗日点对我们来说就是已知的了,然后我们就可以在这几个已经判断出来的星体系统所在的区域内,通过刚才的方法找到哪些系统还有拉格朗日点,找到足够多个具有可通行拉格朗日点的三体星系统直到能够满足我们的所有舰队一次性通过为止。
星牛思忖很久,欲言又止。
bit看透了星牛心中疑虑,补充解释道:随便指定一个k,谁也无法保证这个数能不能判断准确,可能k个三体星系统里面有或者没有拉格朗日点的三体星系统数量一样,甚至是多数没有,但是k 1或者k 2就变成多数都有了,那也说不定。
星牛听完认同地点点头。
bit :这个问题的确存在,所以,为了将这个可能性尽量减小,我们并不是只进行一轮就直接让密集三体星区域另一侧大部分巡航舰直接通过,而是进行多次调整:通过五到十次确认,增大或者减小k的值。
具体来说怎么调整呢?一个问题就是我们利用十个已知星体系统当中的一个作为假想的待判别星体,利用其它九个作为我们的参照星体,我们就不断地调整k,也就是说判断k个星体里面的多数是有还是没有;进而判断这个假想星体,因为我们实际上知道他到底有没有拉格朗日点(通过虚线脉冲测量得到),那么我们就可以看出每次的k的效果,到底能不能判断准确,我们进行十次甚至更多次,找到一个让所有已知星体的判定结果都准确或者准确率最高的一个k,然后再拿这个k值以及上面的方法去判定未知星体系有无拉格朗日点,这时候的k是一个相对靠谱的值,当然了,理论上进行的调整次数越多以及我们已知的星体系统越多,我们找到的这个k才越准确。但是...我们的补给没有那么多,在保证未来舰队可能面临一些棘手的问题时不至于被动,我们只能先进行十次虚线脉冲的测量。
不过有个风险就是,既然是预测,肯定就会有一定的风险,如果哪个三体星系统判断失误,那就意味着从这里通行的巡航舰...
大家都明白了,这时候舰长经过短暂的思考,下达了按照bit的方案执行的命令。
实际的结果如何呢?
02—掉书袋
【1】 上述情节是对k-近邻(knn)分类算法的一个通俗演义。
【2】 k-近邻非常容易理解:在特征空间中,若一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一类别,则该样本也属于该类别。
【3】 k-近邻与聚类的思想上有些类似,但是k-近邻是监督算法,需要知道类别标签,然后对特征空间中与对应类别相近的点统一打上此标签。
【4】这里强调一下k值的选取:如果k值选择的较小,模型容易过拟合;如果k值过大,那么模型就过于简单:
下图展示了不同的k值对分类效果的影响,其中红色五边形是待分类点,也即不知道该点属于黑色圆圈类还是蓝色方块类。若k=1(红圈),意为待分类点(红色五边形)与最近的1个点类别相同,应该划分为黑色圆圈类;若k=8(蓝圈),意为五边形与最近的8个样本点的多数类相同,应该划分为蓝色方块类;若k=20(绿圈),意为五边形与最近的20个样本点的多数类相同,再次被划分为黑色圆圈类。实际结果是该点划分为蓝色方块类更合适,所以k值不能太大也不能太小。
【5】既然是“近邻”,那么需要有一个刻画远近的尺度标准,在实际应用过程中,通常采用欧氏距离作为刻画远近的标准
03—参考文献
1. 关键字:《统计学习方法》、李航
2. 关键字:《机器学习》、西瓜书、周志华
3. 关键字:coursera、k-近邻
01—全体舰队通过第二个拉格朗日点
很快,舰队来到了一片天体密度较之前大几倍的空间,舰长迅速指挥探测人员测量前方是否存在拉格朗日点。
在紧张的七八小时的探测以后,探测人员给出了探测结果:前方有几个高度疑似拉格朗日点的位置,但是因为前方天体密度较大,不是十分确定具体的位置;另外还在距离疑似拉格朗日点的位置约0.005光年的位置探测到了另一个引力密集区。
大家明白,引力密集区意味着天体遍布,极有可能是引力走廊的第二个拉格朗日点。众人欢欣鼓舞;同时舰长迅速组织技术人员成立攻坚小组,力求定位第一个拉格朗日点的具体位置,但是随着探测的深入,他们逐渐发现一个奇怪的现象:有一个点基本可以确定拉格朗日点,其周围是三个超大天体,通过给舰船一定的初始速度,舰船可以几乎不依赖任何能量顺利通过这一片天体密集区,还可以依赖三个超大天体的引力纠缠效应将飞船以10倍光速抛射到出去;但是经过计算,这个拉格朗日点单次只允许通行一艘母舰或者1艘巡航舰,这是因为三个超大天体的强大引力交叠在一起,将这个通道压缩地十分狭窄;而且每当有物体通过这个拉格朗日点,三个天体之间的引力会以光速发生一次扰动,表现为这个拉格朗日点位置出现振荡,需要139个开普勒星日才能恢复如初,而且振荡期间引力极不稳定,舰船无法通过(就是每次只能通过一艘舰船,然后通道失效139个开普勒日);这就产生了一个难题:要么寻找其他办法,使得舰队的所有母舰、巡航舰、补给舰等一次性全部通过这片区域,同步通过拉格朗日点,以10倍光速去往引力走廊的下一个拉格朗日点;要么,只通过一艘母舰或者巡航舰作为探测先锋,继续探寻引力走廊的下一个起跳点,但是后者显然风险极大,因为前方未知的任何一个状况都有可能将探险舰摧毁。
看清当前的形式之后,工程人员继续深入探测,以求挖掘出其他可以通行的点;舰长则与其他舰队人员评估方案二——冒险通过一艘巡航舰——的风险!
在讨论和评估的过程中,出现了这么三种观点:
(1)支持冒险:母星开普勒452b危在旦夕,通过一艘起码还有继续寻找铬源的希望,也就意味着开普勒452b还有希望,不能轻易放弃,至于由哪些队员出征探险,那是后话了。
(2)拒绝冒险:从前面的经历来看,如果没有母舰和巡航舰、补给舰之间的相互配合,很难克服遇到的状况;很多大型设备无法在巡航舰上搭载,而母舰也无法具备巡航舰的机动灵活性,更无法在两难的情况下“牺牲小我成就大我”,母舰不容有失,单艘舰船通行实为下下策,需要从长计议。
(3)相信工程人员的能力,相信随行科学家的能力,我们能够找到使得整个舰队一次性顺利通过的方法,但是到底需要等多久或者母星开普勒452b允许我们等多久,这个问题无法逃避;还有,除了探测,还有没有其他办法也尚未可知
bit也陷入了思考。
但是很快事情再次出现了转机:前方探测人员发回新的探测结果,在最明显的那个拉格朗日点附近,仍然存在多个三体星系统,每个三体星系统围成的区域内也有高度疑似拉格朗日点的存在;同时,在这片密集天体背后,在引力纠缠点之前,存在一片引力真空区,同样地,也是由于附近超大天体,导致了这个神奇的引力真空区域的存在。
于是bit很快有了方案:
既然有这样一片区域,那么舰队可以兵分几路,待到通过拉格朗日点挣脱密集天体的引力束缚之后,通过短暂航行,在引力真空区汇合,然后再次出发前往引力纠缠点,借助密集天体的引力纠缠效应,获得10倍光速的星际旅行速度,前往下一个引力出发点!
可问题来了,怎么确定哪些三体星之间存在可通行的拉格朗日点呢?
bit说:思路很简单,但是需要大家的配合。
首先,根据探测人员的数据,确定一个100%确定的可以通过的拉格朗日点,母舰首先通过此点穿过密集天体;那么此时,这个点也就失去了作用,至少在139个开普勒星日之内毫无作用,因为他已经产生了扰动,不允许任何一个巡航舰通过;但是,在母舰通过拉格朗日点的时候,会进行记录,确定到底什么样的三体星系统才能产生如此的拉格朗日点,然后每个三体星系统在是否具备一个可以通行的拉格朗日点这个角度上,都可以被记录的数据进行刻画和表征,比如每个三体星系统有5个关键特征:(1)三体星之间的距离平均值、(2)三体星的引力大小、(3)三体星周围是否存在小卫星、(4)三体星的自传速度及(5)三体星的平均扰动
然后就可以把每一个三体星系统表示为特征空间的一个点,假定待判别的这个三体星系统是a-b-c系统,我们就找在特征空间上距离a-b-c系统最近的k个三体星系统,认为这k个最近的三体星系统在是否具有可通过的拉格朗日点这个问题上具有相似的属性,简单点,近朱者赤近墨者黑,如果这k个三体星系统当中的多数都具备可以通行的拉格朗日点,那么这个a-b-c系统也有可通行的三体星系统;那么...
bit还没来得及继续说,星牛就打断道:从现在的结果来看,只有一个疑似拉格朗日点基本确定可以通过,像你说的,就算真的找到了这样的k个星体系统,这k个也很可能都无法判断他们是否有拉格朗日点,也就没法通过这种类似“投票表决”的方式判断这个a-b-c系统...
bit哈哈一笑:可以通过虚线脉冲(虚线脉冲就像它的名字一样,是断断续续的一段脉冲,可以通过计算使得一段脉冲在经过三体星系统的时候恰好处于无脉冲的区间,这样可以避免这个三体星系统真的存在拉格朗日点,却因为察觉到有脉冲通过而发生扰动的情况)在这个点附近的几个三体星系统进行测量,但是由于每次发射虚线脉冲需要消耗大量能量,我们没办法通过这种方式覆盖更大的范围从而找到足够多的副拉格朗日点让整个舰队一次性通过;通过发射几次虚线脉冲,比方说找到10个三体星系统,他们是否具备让巡航舰或者母舰通行的拉格朗日点对我们来说就是已知的了,然后我们就可以在这几个已经判断出来的星体系统所在的区域内,通过刚才的方法找到哪些系统还有拉格朗日点,找到足够多个具有可通行拉格朗日点的三体星系统直到能够满足我们的所有舰队一次性通过为止。
星牛思忖很久,欲言又止。
bit看透了星牛心中疑虑,补充解释道:随便指定一个k,谁也无法保证这个数能不能判断准确,可能k个三体星系统里面有或者没有拉格朗日点的三体星系统数量一样,甚至是多数没有,但是k 1或者k 2就变成多数都有了,那也说不定。
星牛听完认同地点点头。
bit :这个问题的确存在,所以,为了将这个可能性尽量减小,我们并不是只进行一轮就直接让密集三体星区域另一侧大部分巡航舰直接通过,而是进行多次调整:通过五到十次确认,增大或者减小k的值。
具体来说怎么调整呢?一个问题就是我们利用十个已知星体系统当中的一个作为假想的待判别星体,利用其它九个作为我们的参照星体,我们就不断地调整k,也就是说判断k个星体里面的多数是有还是没有;进而判断这个假想星体,因为我们实际上知道他到底有没有拉格朗日点(通过虚线脉冲测量得到),那么我们就可以看出每次的k的效果,到底能不能判断准确,我们进行十次甚至更多次,找到一个让所有已知星体的判定结果都准确或者准确率最高的一个k,然后再拿这个k值以及上面的方法去判定未知星体系有无拉格朗日点,这时候的k是一个相对靠谱的值,当然了,理论上进行的调整次数越多以及我们已知的星体系统越多,我们找到的这个k才越准确。但是...我们的补给没有那么多,在保证未来舰队可能面临一些棘手的问题时不至于被动,我们只能先进行十次虚线脉冲的测量。
不过有个风险就是,既然是预测,肯定就会有一定的风险,如果哪个三体星系统判断失误,那就意味着从这里通行的巡航舰...
大家都明白了,这时候舰长经过短暂的思考,下达了按照bit的方案执行的命令。
实际的结果如何呢?
02—掉书袋
【1】 上述情节是对k-近邻(knn)分类算法的一个通俗演义。
【2】 k-近邻非常容易理解:在特征空间中,若一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一类别,则该样本也属于该类别。
【3】 k-近邻与聚类的思想上有些类似,但是k-近邻是监督算法,需要知道类别标签,然后对特征空间中与对应类别相近的点统一打上此标签。
【4】这里强调一下k值的选取:如果k值选择的较小,模型容易过拟合;如果k值过大,那么模型就过于简单:
下图展示了不同的k值对分类效果的影响,其中红色五边形是待分类点,也即不知道该点属于黑色圆圈类还是蓝色方块类。若k=1(红圈),意为待分类点(红色五边形)与最近的1个点类别相同,应该划分为黑色圆圈类;若k=8(蓝圈),意为五边形与最近的8个样本点的多数类相同,应该划分为蓝色方块类;若k=20(绿圈),意为五边形与最近的20个样本点的多数类相同,再次被划分为黑色圆圈类。实际结果是该点划分为蓝色方块类更合适,所以k值不能太大也不能太小。
【5】既然是“近邻”,那么需要有一个刻画远近的尺度标准,在实际应用过程中,通常采用欧氏距离作为刻画远近的标准
03—参考文献
1. 关键字:《统计学习方法》、李航
2. 关键字:《机器学习》、西瓜书、周志华
3. 关键字:coursera、k-近邻