前回の投稿にも書いたように、私はサイモン・ウィリソンを密接にフォローしている。なぜなら、彼は大規模言語モデル(LLM)とAIの領域で活躍する最も知識豊富な人物の一人だからだ。
最も重要なのは、サイモンが実際にLLMを開発し、テストしていることだ。 彼は、AIの市場が今週あと何十億ドル成長するとか、AIが人類を滅亡させるなど、という話はしない。ポール・エヴェレット の言葉を借りれば、 サイモンは事情を正確に伝えてくれる 。サイモンは我々のPythonコミュニティのメンバーでもあるので、私もひいきにしている。
なので、AIエンジニア世界見本市の基調講演に関する彼のブログ記事をとても興味深かく読んだ。それは長い投稿で、LLMとAIの分野で現在起きている画期的な進歩と課題についての彼の見解が詰まっている。そこで私は、ビジネス関連の職務に就いていて、他の同業者に比べて技術的な傾向が弱い私の読者のために、要約してみた。
今は GPT-4 以外もある
2023年3月14日に OpenAI がGPT-4 をリリースすると、それは瞬く間に言語モデルのゴールドスタンダードとなり、約1年間この分野を席巻した。しかしながら、この優位性により、AIモデルの品質が独占される懸念が生じた。 ほぼ1年間、GPT-4の性能に匹敵するモデルはなく、停滞と競争の欠如が懸念された。しかし、この数ヶ月で状況は一変した。新しいモデルが登場し、GPT-4の壁を打ち破り、競争と革新の新時代が到来したのだ。
モデルの新しい風景
今日、私たちは3つの異なるモデルのクラスターを目にしている:
- GPT-4o、Claude 3.5 Sonnet、Google Gemini 1.5 Proなどの最上位モデルは、競争力のある価格で最先端のパフォーマンスを提供する。
- 一方、Claude 3 HaikuやGoogle Gemini 1.5 Flashのような手頃な価格でありながら高性能なモデルは、予算重視のプロジェクトに実行可能な選択肢を提供する。
- しかし、GPT-3.5 Turboのようなモデルは時代遅れになりつつあり、技術の進歩の速さを浮き彫りにしている。 サイモンは講演の中で、GPT-3.5ターボはもう 使わないように と、かなり具体的に言っていた。 彼自身の言葉で言うと、GPT-3.5ターボは "ホットなゴミ" だ。(ホットなゴミを私は見たことがない。あなたはあるだろうか?)
モデル _バイブズ_ を評価する
たくさんの新しいモデルを試すのは楽しいし、いいことだ。しかし、どれがベストかをどのように判断するのだろうか?
「バイブス」とは、サイモンがLLMを評価したいときによく使う言葉だ。
パフォーマンス指標だけでは、全体像はわからない。モデルの "雰囲気"、つまり意図されたタスクにどれだけ合致しているかも同様に重要だ。サイモンは、ユーザーが頭脳戦のプロンプトを通じて、「バイブス」に基づいてモデルを比較することができるプラットフォーム、LMSYS Chatbot Arenaを強調した。このユーザー主導の評価方法は、GPT-4oとクロード3.5ソネットを筆頭に、さまざまなモデルの実用的な使い勝手を判断する上で非常に貴重であることが証明されている。
オープンライセンスとフリーアクセス・モデルの台頭
Llama 3やCohere/NVIDIA's Command R+のような新規参入企業が素晴らしい機能を提供しているオープンライセンス・モデルは大きく前進している。これらのモデルは、高品質なAIへのアクセスを民主化し、より多くの開発者が所有者システムの制約を受けずに実験と革新を行えるようにする。このシフトは、より多様で競争力のあるAIエコシステムを育んでいる。
GPT-4クラスシステムへのフリーアクセス
最もエキサイティングな進展のひとつは、GPT-4クラスのモデルが無料で利用できるようになったことだ。GPT-4oもクロード3.5ソネットも、サインインさえすれば、消費者が無償でアクセスできるようになった。最先端のAI技術の民主化により、より多くの人々がこれらの先進的なモデルのパワーを体験し、活用することができる。
AIツール活用における課題
こうした進歩にもかかわらず、AIツールの効果的な使用は依然として複雑な課題である。 サイモンは、ChatGPTのようなツール、特にPDFのような多様な入力を扱う場合の課題を強調した。
"AIの信頼危機"
信頼はAI業界において重要な問題である。DropboxやSlackが関与した最近の事件は、データプライバシーとAI利用に対するユーザーの懸念を悪化させた。Anthropicのような企業が顧客データをトレーニングに使用しないと明言していても、誤解を招くようなコミュニケーションや稚拙な設計が不信感を広めている。 信頼を回復するには、透明性、明確なコミュニケーション、強固なプライバシー慣行が必要だ。
プロンプト・インジェクションの根強い脅威
プロンプト・インジェクションは、依然としてAIシステムにおける重大な脆弱性である。サイモンの講演では、Markdownの画像流出バグのような例がデータ侵害の可能性を示すなど、この問題がもたらす継続的な課題が強調された。プロンプト・インジェクションを理解し緩和することは、AIアプリケーションのセキュリティと完全性を維持するために極めて重要だ。
AIコンテンツのドロ沼化を避ける
あなたは「スパム」をご存知だろう。そう、今は「ドロ沼」なのだ。
サイモンは"スロップ"の概念を導入したーAIが生成したコンテンツで、リクエストもレビューもされていない。そのようなコンテンツを公開することは、AIシステムやその背後にいる個人や組織の信頼性を損なう可能性がある。AIのエンジニアは、自分たちが生成したコンテンツについて説明責任を負い、正確で、信頼性が高く、価値のあるものであることを保証しなければならない。
私たちの製品、Kafkai(カフカイ))では、編集ステップを設け、それを望む顧客がいるにもかかわらず自動公開機能を設けないようにしている。
AI技術者としての私たちの責任
サイモンは基調講演の最後にメッセージを残した: AIエンジニアとして、私たちはこの技術革命の最前線にいる。AIツールを使用するためのベストプラクティスを確立し、その能力と限界を理解するために人々を導くことは、私たちの責任だ。積極的な模範を示し、知識を共有することで、私たちはAI技術が社会全体に利益をもたらすために使われることを確実にすることができるのだ。
サイモン・ウィリソンの基調講演は、AIの現状と今後の課題について包括的な概観を提供する。このエキサイティングでありながら複雑な状況を乗り切るには、用心深く、責任感を持ち、革新的であり続けることが極めて重要である。
関連記事
Cognitionが評価額260億ドルで10億ドル超を調達 — Devinが示す「AIエンジニア時代」の本格到来
AIソフトウェアエンジニア「Devin」を開発するCognitionが、評価額260億ドルで10億ドル超の大型資金調達を実施した。今回のラウンドはLux Capital、General Catalyst、8VCが主導し、既存投資家に加えて新規投資家も多数参加している。同社は、AIによる自律型ソフトウェア開発市場において急速に存在感を高めており、今回の資金調達は「AIコーディングエージェント市場」が次のフェーズに入ったことを象徴している。
オープンウェイトという出口 ―中小企業がいま打つべき三つの手― (第3回/全3回)
第1回・第2回は悪い知らせの側だった。本稿は、kafkai.aiの読者の多くが過小評価していると思う側を書く。フロンティア定額が値付け直されている裏で、本物のオープンウェイト層が成熟した。GLM-5.1、Qwen 3.6、Kimi K2.6、DeepSeek V4。Ollamaは月間5,200万ダウンロード。Claude Codeはそれらの上で動く。中小企業が実際に打つべき手を書く。
定額AIが破綻する理由 ―バブルの算数― (第2回/全3回)
第1回では3月と4月に定額制AIプランで何が起きたかを並べた。第2回はその「なぜ」を書く。OpenAIの推論コスト、2026〜2027年の米国AI設備投資の予測、そして米国の消費者AI市場の実サイズ。三つを同じ段落に並べた瞬間、定額プランがきしむことは驚きでなくなる。驚きは、ここまで持ったほうだ。