AWS ソリューションアーキテクトの鈴木です。普段は WEB 業界のお客様のご支援をしております。 みなさまは、最近話題になっている Model Context Protocol (MCP) をご存知でしょうか?MCP は大規模言語モデル (LLM) が外部ツールやデータソースなどと接続する方法を標準化することを目的として、Anthropic 社が主体となり策定が進められているオープンプロトコルです。オープンプロトコルのため、開発者は誰でも MCP に準拠したAI アプリケーションや外部ツールやデータソースに接続する MCP サーバーを構築することができます。AWS ブログでも「Harness the power of MCP servers withAmazon Bedrock Agents」というブログ記事で、Amazon Bedrock Inline Agent を使った MCP
使う生成AIから創る生成AIヘ ローカルPCやオンプレミスで生成AI環境を構築してみよう:クラウドサービスだけじゃない! ローカルPCやサーバ、Kubernetesで生成AI(1)2022年以降、生成AIはブームを超えた存在になりつつあるといっても過言ではありません。気軽に試せるラップトップ環境で、チャットbotを提供するオールインワンの生成AI環境構築から始め、Kubernetesを活用した本格的なGPUクラスタの構築やモデルのファインチューニングまで解説する本連載。初回は、ローカル環境でカンタンに生成AIモデルを実行する方法や、生成AIを学んでいく上で押さえておきたいアーキテクチャを丁寧に解説します。

この記事はエムスリーAdvent Calendar2023とMLOps Advent Calendar2023の12日目の記事です。AI・機械学習チームの北川です。 最近は猫のかまってアピールがすごすぎて、よく仕事の邪魔されます。 かまって欲しがる猫 現在AI・機械学習チームではMLのバッチをGoogleKubernetes Engine(GKE)上で運用しています。 現在数えてみたところ240個以上のバッチがGKE上で動いているようです。AI・機械学習チームでは2019年頃から約4年ほどGKE上でMLバッチを運用しています。 その間にコストの最適化や安定したバッチの運用などに力を入れてきました。 この記事では、主にスケールインとコスト最適化について説明しようと思います。 チームのMLについて全体を把握したい場合は以下の記事が詳しいです。 www.m3tech.blog GKEの

エンジニアの上野です。Cluster Servicesチームという、PFNのKubernetesベースの機械学習基盤を開発・運用するチームに所属して、基盤の改善や新機能の開発に務めています。本記事では、深層学習における学習データセット読み込み速度の改善を目指して開発し、現在もKubernetes上で運用中の分散キャッシュシステムを紹介します。 PFNの機械学習基盤については、ブログ「2022年のPFNの機械学習基盤」もご参照ください。 深層学習における学習データセット読み込み 深層学習を高速化するため、深層学習に向いたアクセラレータの開発が日々続けられています。PFNで開発しているMN-Coreシリーズや、NVIDIA社製GPUもそのひとつです。これらのアクセラレータは高速に行列演算を行うことができ、深層学習の1イテレーションにかかる時間を高速化、ひいては深層学習を活用する研究開発全体を加


はじめに こんにちは、ACS事業部の谷合です。Kubernetesリソースのトラブルシュートは難しいと感じたことはないでしょうか? 特にKubernetesビギナーの方であれば、最初何をどうすれいいか戸惑う方も多いかと思います。 そこでそんなトラブルシュートの際にAIの力を借りれるK8sGPTなるツールを見つけましたので、 ご紹介します。github.com K8sGPTはAI providerであるOpenAIと連携でき、Kubernetesリソースの分析をAIに任せることが できるCLIツールです。なお、現在は以下のリソースのBuilt in analyzerが提供されています。 このリストにないリソースについては自前でanalyzerを書く必要があります。 Enabled by default podAnalyzer pvcAnalyzer rsAnalyzer serviceA

初めまして!2023年3月前半にエムスリーのAIチームで10日間インターンに参加していた小栗 (@irungo_ic )です。 インターンでは、エムスリー発の機械学習パイプラインOSSであるgokart をKubernetes上で高速にかつ簡単に実行できるようになるライブラリであるkannon('cannon'と同じ発音!)をゼロから実装し、OSSとして公開しました。github.com この記事ではkannonの技術的な解説、インターンに参加した感想をお伝えします!gokartの概要gokartの抱えていた課題 シングルスレッドでの逐次実行により実行時間が長くなってしまう GKEのリソースを効率的に使えない kannonの概要 kannonの使い方gokart kannongokart kannon 補足 kannonのアーキテクチャ kannonの実装 1. Task Que




PreferredNetworks(PFN)は深層学習などの最先端の技術を最短路で実用化することで、これまで解決が困難であった現実世界の課題解決を目指しています。コンピュータビジョン、自然言語処理、音声認識、ロボティクス、コンパイラ、分散処理、専用ハードウェア、バイオインフォマティクス、ケモインフォマティクスといった幅広い分野で研究開発を行っており、それを支えているのがKubernetes を用いて構築しているオンプレミス/ベアメタルのGPU クラスタです。本セッションでは、PFN がKubernetes を用いてクラスタを運用するなかでどのような障害が起きるのかを紹介し、また障害対応をどのように自動化しているのかを具体的に使用/開発したソフトウェアを含めてご紹介します。またKubernetes クラスタの管理、アップグレードの自動化にも取り組んでおり、それを実現する Clus
AI事業本部におけるGPU活用の取り組みとKubernetes at CloudNative Days Spring 2021 Online Speaker: 青山 真也・李 榮宰・高橋 大輔 Video: https://event.cloudnativedays.jp/cndo2021/t…

We’ve scaledKubernetes clusters to 7,500 nodes, producing ascalable infrastructure for large models like GPT-3, CLIP, and DALL·E, but also for rapid small-scaleiterative research such as Scaling Laws for Neural Language Models. Scaling a singleKubernetes cluster to this size is rarely done and requires some special care, but the upside is asimple infrastructure that allows ourmachine learnin

Kubernetes / GKE ファンの皆様こんにちわ。Google Cloud の Kazuu (かずー) です。GKE Autopilot が GA になりました。弊社公式ブログに続きまして、GKE Autopilot を日本語で解説していきたいと思います。本記事は以下、3 部構成となります。 GKE Autopilot 概要GKE Autopilot を試してみるGKE Autopilot がハマりそうなユースケースは? 1. GKE Autopilot 概要GKE Autopilot は GKE の新しいモードです。Control Plane に加えて、Node が完全マネージドになります。これまでの GKE では Node はユーザー自身が必要台数分作成し、以後の Day 2 オペレーション (e.g. アップグレード) 等も気に掛ける必要がありました。GKE Autopil


Introducing GKE Autopilot: a revolution in managedKubernetes In the years sinceGoogle inventedKubernetes,it has completely revolutionizedIT operations, becoming the de facto standard for organizations looking for advanced container orchestration. Organizations that need the highest levels of reliability,security, andscalability for their applications chooseGoogleKubernetes Engine (GKE). I

こんにちは!エンジニアの@tik-son, @ikemonnとMLエンジニアの@nichimuです。本日ついに待望のGKE Autopilotがリリースされましたね! この記事では、GKE Autopilot上で動いているリアルタイム推論基盤でなぜ我々がGKE Autopilotを利用することにしたのかについてお話しします。 MLリアルタイム推論基盤とは リアルタイム推論基盤とは、機械学習のモデルを使用して、リアルタイムに推論が行える基盤のことです。 このリアルタイム推論基盤を用いることで、 エンドユーザーがsession内で電話するかを予測する エンドユーザーが会員登録を行ったsession内で資料請求をするか予測する のように数秒-数分後にエンドユーザーがどんな状態であるかなどを予測することが実現可能になります。 この基盤はまだ絶賛開発中で誰もが簡単に使える状態になっていないのですが


コンテナ化されたアプリケーションの設定や管理を自動で行うOSS、Kubernetesの概要をおよそ5分でざっくり解説します。Kubernetesとは? 「Kubernetes」は、コンテナ化されたサービスの設定や管理を自動で行うOSS(オープンソースソフトウェア)です。あるコンテナが動作を停止したときに別のコンテナを起動したり、サービスへの負荷の状況によってサーバのリソースを増減させたりと、多数のコンテナを運用管理する際に必要な機能を備えています。このようなソフトウェアを「コンテナオーケストレーションプラットフォーム」と呼びます。Kubernetes以外にも同様の機能を持つソフトウェアは存在しますが、2021年現在、Kubernetesが最もよく使われているといえるでしょう。Kubernetesは、当初はGoogleが開発していましたが、2015年にLinux Foundation傘

ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフーTechBlog こんにちは。サイエンス統括本部でYahoo!ショッピングやPayPayモールのおすすめ機能(レコメンドシステム)の開発を担当している正沢です。 この記事では、別々に作られた複数の機械学習のバッチジョブ管理システムをApacheAirflow(以降、Airflowと記載します)に集約して、運用負荷を低減した事例を簡単なシステム構成とともに紹介したいと思います。 ※ レコメンドシステムの開発ではプライバシーポリシーの範囲内で取得したデータを用いて行っていますYahoo!ショッピングのレコメンドとは?Yahoo!ショッピングやPayPayモールには、ユーザーがなにか商品を見ている時に、他にも興味を持ってもらえそうな商品を推薦するレ


※ この記事は別のサイトで2018年12月08日に公開していた記事をコピーしたものです. この記事について 普段からオンプレのKubernetesクラスタを使った研究開発に携わっており、LANケーブルの配線から新バージョンのKubernetesやエコシステムの検証、構築、運用保守、独自ツールの開発に加えてフロントエンドのGUIをmaterial-uiで作ったりとほぼ全レイヤをやっています。 今回は機械学習の実行基盤としてKubernetesを運用してきたなかで得られた知見について書いていきます。 運用中のKubernetesクラスタについて 運用しているKubernetesクラスタはオンプレミスのCPUサーバとGPUサーバの混合構成で、さらにGPUサーバは複数の世代のGPUが混ざっています。 データサイエンティスト向けに内製した機能を持つことが大きな特徴ではありますが、用途は機械学習に限定
Amazon Web Services ブログKubernetes 上にある機械学習ワークロードでのハイパフォーマンスストレージの使用 コンテナやマイクロサービスベースのアーキテクチャを導入してのアプリケーションの最新化が、現在、各組織で行われています。多くのお客様は、マイクロサービスアーキテクチャを機能させるために、パフォーマンスの高いワークロードをコンテナ内でデプロして、これらのコンテナーから低レイテンシで高スループットの共有ストレージにアクセスする必要があります。これは、コンテナは一時的なもので、長期にわたりアプリケーションを実行するには、データを耐久性のあるストレージに保存する必要があるからです。Amazon FSx for Lustre (FSx for Lustre) は、世界中で最も使用されているハイパフォーマンスファイルシステムを提供し、現在は完全マネージド型で Amaz

最近Kubernetes 全然触ってねーなって思ってたところに、『6年ぶりぐらいにクラウド使った結果、Kubernetes以外のマネージドサービスとか基本要らなくない?となった話 – データエンジニアの酩酊日記』を見つけて、自分と異なる立場によるコンテナシステムへの感想を興味深く読ませていただきました。Kubernetes を推す人がいる一方で、ここには昨夏『Kubernetes、はじめました』と言っておきながら今年に入って全然触らず、ECSを使ったシステムばっか手掛け、Kubernetes いらなくね?って思う人もいるわけで。これはいったいどういうことでしょう、と雑感タイムです。 どうしてコンテナシステムで迷うのか 最初に断っておきたいのは、以下Kubernetes を否定したり腐すような意図は全くなく、なんでやろ?って自身に問いかけた私見です。やめました、と言ってもウチで今も使っ


1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く