動察 Beating 監測によると、「The Information」は関係者と腾讯内部のメモを引用し、腾讯の従業員がHy3モデルの後訓練段階でAnthropicのClaude Codeを使用したことを明らかにした。これは、Anthropicが国家安全を理由に中国企業への商業サービス提供を明確に禁止しているにもかかわらず行われたものである。 Hy3は腾讯の混元シリーズでこれまでで最も強力な大規模言語モデルであり、295BパラメータのMoEアーキテクチャを採用し、昨年末に腾讯の最高AI科学者姚順雨が主導して開発した。RLHF(人間のフィードバックに基づく強化学習)段階では、腾讯の従業員が人間の評価者として参加し、社内メモにはClaude Codeのインストールガイドが記載されており、使用上限は「数千トークン」とされている。 腾讯の従業員はこれを蒸留(強力なモデルの出力を用いて弱いモデルを訓練すること)には当たらないと考えている。彼らの方法は、匿名の2つのモデルに同じプログラミングの問題を提示し、ブラインド評価で採点することと、Claude Codeをリアルタイムで高品質な行動例として生成し、低品質な応答を選別するための参照として用いることである。複数のAI企業の従業員は、後訓練において業界トップのモデルを基準として使用することは一般的な手法であると証言している。 Anthropicの広報担当者は、「当社の安全チームは蒸留攻撃を積極的に監視し、発見次第直ちに対応している」と述べたが、腾讯がClaude Codeを使用した件には直接言及しなかった。中国の企業や開発者がClaudeを入手する一般的な方法は、中間業者を通じたり、中国の電話番号やクレジットカードを使って登録したりすることである。Anthropicは今月初めに本人確認の要件を厳格化し、一部のユーザーには政府発行の身分証明書や本人写真の提出を求めている。
Tencent内部メモが暴露:最新モデルHy3の後の訓練段階でClaude Codeが使用された
動察 Beating 監測によると、「The Information」は関係者と腾讯内部のメモを引用し、腾讯の従業員がHy3モデルの後訓練段階でAnthropicのClaude Codeを使用したことを明らかにした。これは、Anthropicが国家安全を理由に中国企業への商業サービス提供を明確に禁止しているにもかかわらず行われたものである。
Hy3は腾讯の混元シリーズでこれまでで最も強力な大規模言語モデルであり、295BパラメータのMoEアーキテクチャを採用し、昨年末に腾讯の最高AI科学者姚順雨が主導して開発した。RLHF(人間のフィードバックに基づく強化学習)段階では、腾讯の従業員が人間の評価者として参加し、社内メモにはClaude Codeのインストールガイドが記載されており、使用上限は「数千トークン」とされている。
腾讯の従業員はこれを蒸留(強力なモデルの出力を用いて弱いモデルを訓練すること)には当たらないと考えている。彼らの方法は、匿名の2つのモデルに同じプログラミングの問題を提示し、ブラインド評価で採点することと、Claude Codeをリアルタイムで高品質な行動例として生成し、低品質な応答を選別するための参照として用いることである。複数のAI企業の従業員は、後訓練において業界トップのモデルを基準として使用することは一般的な手法であると証言している。
Anthropicの広報担当者は、「当社の安全チームは蒸留攻撃を積極的に監視し、発見次第直ちに対応している」と述べたが、腾讯がClaude Codeを使用した件には直接言及しなかった。中国の企業や開発者がClaudeを入手する一般的な方法は、中間業者を通じたり、中国の電話番号やクレジットカードを使って登録したりすることである。Anthropicは今月初めに本人確認の要件を厳格化し、一部のユーザーには政府発行の身分証明書や本人写真の提出を求めている。