原推:The economic system will over…
分类: Brett Winton
Brett Winton: @lopp 我认为收集硬币是一个合理的类比 在我童年的过程中,我花了一个别人认为值一美元的镍
原推:@lopp I think coin collecting…
Brett Winton: 是否有人尝试通过语言复杂性(或以其他方式对数据进行逻辑排序)对数据进行批量排名,以此来提高训练效率?
原推:Has anybody tried batch ranki…
Brett Winton: @GordonBrianR 想到通用电气几乎被自己的融资部门严重损害
原推:@GordonBrianR GE getting near…
Brett Winton: @GordonBrianR 这里的反驳意见是,风险最大的业务部门可以秘密承担超过控股公司股权池的风险(因为该部门实体可以以控股公司的资本成本借款,并且由于风险低,显然会产生更好的回报会计)
原推:@GordonBrianR A counterargume…
Brett Winton: @_BruceX_啊。知道了。不明白 RM 是用 LM 权重初始化的。 ?
原推:@_BruceX_ Ah. Got it. Didn’t …
Brett Winton: @NaveenGRao 我明白了(我想) 但我具体谈论的是偏好模型的大小(人择的词汇——其他人使用“奖励模型”)。 Anthropic 在扩大参数数量(至 50b)时获得了更好的结果 无法通过相对少量的 HF 数据进行平方。
原推:@NaveenGRao I get that (I thi…
Brett Winton: 关于人类反馈强化学习的问题 RL 偏好模型数据集(50k 数据点)与模型大小(50b 参数)的比率 与底层语言模型非常不同(1,500b 标记到 70b 参数) 为什么? 我是在比较苹果和橙子吗?
原推:question on reinforcement lea…
Brett Winton: @_BruceX_(RLHF 我指的是奖励/偏好模型)
原推:@_BruceX_ (by the RLHF I mean…
Brett Winton: @_BruceX_ 那为什么RLHF模型需要那么多参数呢? 在参数数量和用于训练模型的数据量之间的权衡方面,我有什么误解吗?从某种意义上说,这个比率不应该是可以概括的吗?
原推:@_BruceX_ Then why does the R…
Brett Winton: 这只是一个经济问题吗? (收集人类反馈是昂贵的) 这不会导致偏好模型过度拟合吗?
原推:Is it just a matter of econom…
Brett Winton: @NaveenGRao 试图弄清楚/了解公司将如何优化底层语言模型和强化学习调整之间的预算……
原推:@NaveenGRao Trying to figure …
Brett Winton: 尽管越来越不切实际,但内燃机市场始终存在,就像乙烯基 LP 市场始终存在一样 黑胶唱片销售占音乐收入的 7%,但这些唱片可能只占收听时间的 0.2%。
原推:Though increasingly impractic…
Brett Winton: 技术生命周期 https://t.co/VXGO1j9Ss1 引用来自@wintonARK 的推文: 什么曾经是奢侈品 成为一种便利 成为必需品 成为负担 成为一种矫揉造作 (又是一种奢侈)
原推:The technological lifecycle h…
Brett Winton: 什么曾经是奢侈品 成为一种便利 成为必需品 成为负担 成为一种矫揉造作 (又是一种奢侈)
原推:what was once a luxury become…