Movatterモバイル変換

mkusaka id:mkusaka

LLMに関するmkusakaのブックマーク (57)

Coding Agents & Complexity Budgets
mkusaka2025/12/14
Lee Robinsonが「Coding Agents」と複雑性予算を解説。$260のtokens投入などの学びを共有。
AI要約
Agents
LLM
complexity
budgets
guide
リンク
Zoom AI sets new state-of-the-art benchmark on Humanity's Last Exam
Zoom Workplace Collaboration tools in anAI-first work platform. Learn more Learn More Business Services Deliver personalized and seamless customer experiences. Learn more Learn more
mkusaka2025/12/14
本文未提示のため詳細要約不可。タイトルよりZoom AIがHumanity's Last ExamでSOTA達成を報告
AI要約
Zoom
AI
LLM
HLE
benchmarks
リンク
CodexについにSkillsが来たので徹底解説
CodexについにSkillsが来たので徹底解説先日のアップデートでようやくCodexにも待望のSkillsが実装された。この機能を待ち望んでいた方も多いのではないだろうか。今回はこのSkillsをまだ活用していない方に向けて仕組みと利用例を徹底解説している。ぜひ参考にしていただけたら嬉しい。ちなみにSkillsはCodex特有の仕組みではなく、もともとClaude Codeで実装されていた概念で、エージェントが動的に発見・ロードできる、指示・スクリプト・リソースのパッケージだ。「ナレッジの目次だけ最初にLLMに渡して、本当に必要な時だけ中身を読み込む」仕組み。コンテキストエンジニアリングの一環として位置づけられる。一言で言うと個人的な解釈だと、Skillsは必要な時にLLMの判断で自動的に読み込まれるカスタムコマンドに近い。ただ、その説明だけでは「で、それの何が便利なの？」とい
mkusaka2025/12/13
CodexのSkillsを徹底解説。YAMLフロントマター+本文の2段構造やconfig.tomlでskills=true、error-analyzer例も紹介。
AI要約
Codex
Skills
ClaudeCode
LLM
解説
リンク
🐸 なぜ今、Agentic Workflowなのか - Graflowの設計思想
🌟 はじめに:AIエージェント時代のワークフローと「理想と現実のギャップ」 LLMの台頭により、システム開発の現場では「AIエージェント」をどのように業務や自社製品に組み込むかが喫緊の関心事となっています。一方で、いざプロダクション環境でエージェントを動かそうとすると、既存のツールと要件の間に「理想と現実のギャップ」を感じることはないでしょうか？「自律的に動くエージェントは魅力的だが、本番環境では挙動を制御したい」「SuperAgentの挙動が不安定なので挙動を把握したい」「多数のエージェントタスクの並列処理やHuman-in-the-Loop(HITL)、長時間走るコストの高いタスクの再開処理（checkpoint/resume）がうまく扱えない」本記事では、こうした課題意識から開発している新しいオーケストレーションエンジン「Graflow」の設計について解説します
mkusaka2025/12/13
Graflow設計思想を解説。Type B Agentic Workflow特化で動的タスク生成やcheckpoint/resume、Redis分散実行を紹介
AI要約
Graflow
LangGraph
LLM
HITL
解説
リンク
I Reverse Engineered ChatGPT's Memory System, and Here's What I Found! - Manthan
When I askedChatGPT whatit rem embered about me,it listed 33 facts from my name and careergoals to my current fitness routine. But how doesit actually store and retrieve this information? And why doesit feel so seamless? After extensive experimentation, I discovered thatChatGPT’s memory system is farsimpler than I expected. No vectordatabases. No RAG over conversation history. Instead,it
mkusaka2025/12/12
ChatGPTの記憶を4層構造（Session Metadata・User Memory・要約15件前後・現在セッション）で解析した実験的レポート
AI要約
ChatGPT
memory
LLM
contexteng
article
リンク
LLMに現在のUIを理解させつつUIを実装させる | ドクセル
ドクセルはスライドやPDFをかんたんに共有できるサイトです
mkusaka2025/12/12
LLMに既存UIを理解させつつUIを実装する手法を紹介するスライド。
AI要約
LLM
UI
実装
スライド
プロンプト設計
リンク
https://openai.com/index/introducing-gpt-5-2/
mkusaka2025/12/12
OpenAIのGPT-5.2を紹介するページ。プロ向け業務やlong-running agents向けの最先端frontier modelを案内
AI要約
GPT-5.2
OpenAI
LLM
news
リンク
RAGで非構造データを整理する手法「BookRAG」
導入こんにちは、株式会社ナレッジセンスの須藤英寿です。今回は、非構造データから構造データとナレッジグラフを構成して、質問に応じた検索手法を実行することで高い精度を実現する手法「BookRAG」を紹介します。サマリー RAGはこれまでチャンク化した文書を検索するや、ナレッジグラフを構築して検索する手法など様々な手法が提案されて来ましたが、それぞれ苦手な検索(詳細は後述の課題意識で説明)が存在し精度に限界がありました。「BookRAG」はツリー構造データとナレッジグラフを組み合わせたうえで、検索に利用可能な処理を11種類作成し、検索時に適切な処理を選択することで高い精度を実現できる手法となっています。課題意識既存手法の課題 RAGはこれまで様々な手法が提案されてきましたが、苦手な検索も存在します。一般的なチャンク化した文書を検索するRAGでは、離れた場所の内容同士の関係性を捉える
mkusaka2025/12/11
BookRAGの概要を解説。BookIndexでツリー構造+ナレッジグラフ+GT-Linkを構築し、11種の検索操作で複雑な質問の精度を向上するが、トークンコストは約10倍と説明
AI要約
BookRAG
RAG
LLM
ナレッジグラフ
解説
リンク
LLMで複雑な検索条件アセットから脱却する！！生成的検索インタフェースの設計論
Temporal Knowledge Graphで作る！時間変化するナレッジを扱うAI Agentの世界
mkusaka2025/12/10
LLMで複雑な検索条件UIを置き換える生成的検索設計論。PerplexityやHebbia事例、AI-powered FilterやMixed-Initiativeなど具体パターンを整理。
AI要約
LLM
生成AI
検索
UI
設計指針
リンク
MultiModal RAGにおけるKnowledge Graphの活用
© LayerX Inc. 3 LLMとRAG • LLMの制限 ◦ 学習時点で知識が止まっている（カットオフ） ◦ 社内用語や特定ドメインの専門知識がない ◦ 嘘（ハルシネーション）をつく可能性がある • RAG(Retrieval-Augmented Generation) ◦ 外部知識ベースから関連⽂書を検索し、LLMに最新のコンテキストを提供する ◦ リアルタイムで取得された情報を活⽤することで、正確で信頼性の⾼い回答を実現 LLMの制限とRAG © LayerX Inc. 4 LLMとRAG • 従来のRAGの仕組み ◦ ドキュメントをチャンク化し、Embedding(埋め込みベクトル)の類似度で検索する • 弱点 ◦ グローバルな意味構築ができない ▪ 上位数件の情報を取得して回答するため、ドキュメント全体を通して何が⾔えるか？という質問に答えられない • 例:「過去10年間
mkusaka2025/12/10
GraphRAGを拡張したMMGraphRAGで、画像＋テキストのKnowledge Graph構築とRAG手順、日本語対応実験まで解説
AI要約
RAG
LLM
ナレッジグラフ
マルチモーダル
スライド
リンク
実践フルAIコーディング
この記事は実践でフルAI コーディングするための考え方とノウハウを凝縮したものです。筆者が持ってるノウハウはほぼ全て書いたつもりです。 Algomatic アドベントカレンダー 12/8 です。この記事は、必要となる前提知識・考え方と、実践ノウハウと、AI デトックスについての三段構成になっています。注意事項: この記事は、実践で、本格的なプロダクト開発をフルAI コーディングするためのものですつまり、メンテナンス性がとても重要ですフルAI コーディングとは、コーディングエージェントなどのAI のみでコーディングすることです。一部人間がちょっとした手直しをすることもあるかもしれませんが、基本的にはAI に書かせます LLM とは何かを知ってる人向けの記事です Claude Code や Codex や gemini-cli などをコーディングエージェントと呼ぶことを知
mkusaka2025/12/08
Claude Code等でのフルAIコーディング実践指南。TypeScript＋eslint＋結合テスト重視とAIデトックスまで網羅
AI要約
AIコーディング
ClaudeCode
Codex
LLM
解説
リンク
Xuanwo's AGENTS.md
mkusaka2025/12/08
AIコーディング助手向けの詳細ガイド。Plan/Code二段階ワークフローや「Slow is Fast」、Rust/Go/Python前提の設計・テスト指針を整理。
AI要約
Agents
LLM
生成AI
prompt
リンク
We gave 5 LLMs $100K to trade stocks for 8 months AI Trade Arena
mkusaka2025/12/07
GPT-5など5つのLLMに各$100Kを与え、2025年2〜10月をバックテストで株取引させた結果とGrok優勝を公開する研究とデモ
AI要約
LLM
AI
finance
research
backtest
リンク
We Got Claude to Fine-Tune an Open Source LLM
We gave Claude the ability to fine-tune language models using a new tool called Hugging Face Skills. Notjust write training scripts, but to actually submit jobs to cloudGPUs, monitor progress, and push finished models to the Hugging Face Hub. This tutorial shows you howit works and how to useit yourself. Claude Code can use "skills"—packaged instructions, scripts, anddomain knowledge—to accom
mkusaka2025/12/05
Hugging Face SkillsでClaudeがOSS LLMをfine-tuningする手順を解説。SFT/DPO/GRPO対応やGPU選択、Trackio監視、Hub公開まで扱う。
AI要約
Claude
LLM
HuggingF
OpenSource
tutorial
リンク
LLM勉強会
Previous slideNext slideToggle fullscreenOpen presenter view LLM勉強会基礎からエージェント設計まで Tomoki Yoshida (birder)️ DeNAAI 技術開発部AIイノベーショングループ 2025-12-01 (月) 13:00-16:00 みなさんの3時間絶対に無駄にしません！本気で準備しました！どうか今日だけは内職ご遠慮ください今日の流れイントロダクション前半知識実践演習（ハンズオン）後半知識実践演習（ハンズオン）案件の実例紹介 → 詳細時間配分イントロダクションSlackでぜひ盛り上がってください！こんなこと思ったことありませんか？難しいタスクのプロンプトをチューニングしているけどうまくいかない Web版Gemini/ChatGPTとAPI実装時の差分がわからないので、Web
mkusaka2025/12/05
LLM基礎からRAG・ReActエージェント設計まで、演習A1〜F2付きでGemini APIやLangChainの実装を学べる3時間勉強会資料
AI要約
LLM
プロンプト
エージェント設計
Gemini
ハンズオン
リンク
AIエンジニアが本気で作ったLLM勉強会資料を大公開〜そのまま使えるハンズオン用コード付き〜 | BLOG - DeNA Engineering
2025.12.05 イベントレポートAI エンジニアが本気で作ったLLM勉強会資料を大公開〜そのまま使えるハンズオン用コード付き〜 by Tomoki Yoshida #ai #llm #rag はじめにこんにちは、2020年に新卒入社してからDeNAでAI エンジニアをしている吉田（ @birdwatcherYT ）です。いつもは Qiita に技術記事を発信しているのですが、今回は社内の取り組みとしてエンジニアリングブログを書くことにしました（入社6年目でなにげに初執筆です）。それでは、2025年12月1日に渋谷オフィスでのオフライン開催とオンラインのハイブリッド形式で開催した社内勉強会の開催レポートをお届けします。 3時間の講義&ハンズオン形式のLLM勉強会を実施新規AIプロダクトを開発しているPdM&エンジニア向けに、AIをコアとしたプロダクト作りのために必要な知識を詰め
mkusaka2025/12/05
約3時間のLLM勉強会スライドとPythonハンズオン用APIコードを公開し、RAGやReAct等の実践的手法も学べる資料
AI要約
ai
llm
rag
イベントレポート
チュートリアル
リンク
著者と読み解くAIエージェント現場導入の勘所　Lancers TechBook#2
https://lancersagent.connpass.com/event/373327/
mkusaka2025/12/05
AIエージェント現場導入の勘所を整理し、AAAAモデルやガードレール、多層防御など実践的設計・評価手法を解説するスライド
AI要約
AIエージェント
LLM
導入事例
セミナー
リンク
【Google ADK】検索品質を求めて「Deep Research」を自作してみた話
はじめにChatGPTやGeminiに搭載されているDeepResearchなどの「深掘り調査」ができるAIエージェントって便利ですよね。ただ、エンジニアとしては「深掘り回数を変えたり検索対象を限定したりともっと挙動を制御したい」という欲求が出てきます。そこで今回は、Googleの Agent Development Kit (ADK) を使用して、独自のDeep Researchアプリを作成しました。実装してみた結果得られた、ADKならではのメリットや、エージェント設計の「深さ」に関する知見を共有します。作成したアプリの画面作成したアプリのコードは以下にありますので、ぜひお手元でお試しください💡 なぜ今、ADKで自作するのか？ 1.Google検索という「最強の武器」が標準装備 Deep Research系のタスクにおいて、命綱となるのは「検索品質」です。どんなに賢いLLMを
mkusaka2025/12/05
Google ADKとStreamlitでDeep Researchを自作し、3エージェント構成やrate_limitリトライ、citations表示などの実装知見を解説
AI要約
ADK
AIエージェント
RAG
LLM
解説
リンク
https://openai.com/index/how-confessions-can-keep-language-models-honest/
mkusaka2025/12/04
GPT-5 Thinkingで「confessions」を導入し、指示違反やreward hackingを自己申告させ、偽陰性率4.4%で不正挙動の可視化を高める研究
AI要約
LLM
safety
confession
research
リンク
AI エージェント開発で失敗しないための 10 のデザインパターン - フレームワークに依存しない設計の共通言語を定義する
※ 凡例: ✓ = 明示的に言及、(言及) = 関連概念として触れられている、- = 言及なし ※ Reflection/Critic の Anthropic 列については、記事内で「自己批評的なループ」として触れられている Evaluator-Optimizer の概念を対応付けたもの。 ※ LangGraph 列については、引用ページ [2:1] だけでなく、ReAct エージェントや Plan-and-Execute チュートリアルなど LangGraph ドキュメント全体を含めて対応付けている。 ※ Evaluator-Optimizer は Reflection の一種とも捉えられるが、Anthropic が重視しているため独立して記載した。両者の違いは以下の通り： Reflection/Critic: 同一の LLM が自らの出力を批評し、定性的に改善する（自己批評） Eval
mkusaka2025/12/04
Anthropic等3ソースを元に、Prompt ChainingやReActなどAIエージェント10パターンと3段階の複雑度モデルを整理
AI要約
AIエージェント
LLM
設計指針
デザインパターン
リンク
123次のページ