547.RARO机制＝逆向强化学习框架＋专家演示数据利用＋相对论对抗博弈＋生成判别双思维链＋Tie机制稳定训练＋测试时计算扩展