こんにちは、イノベーションセンターの加藤です。普段はコンピュータビジョンの技術開発やAI/機械学習(ML:Machine Learning)システムの検証に取り組んでいます。一方で、兼務で生成AIチームに参加し、大規模言語モデル(LLM: Large Language Model)に関する技術の調査を行なっています。 この記事では、日本語のコード生成のデータセットが無い条件下で、進化的モデルマージを活用することで日本語とソースコード生成に特化した大規模言語モデル(LLM)を合成した試みについて紹介します。 目次 目次 モデルマージとは 進化的モデルマージとは 利用したモデル 日本語LLM コード生成特化 MergeKitによる実験 利用モデル マージ用データセット JSQuAD CoNaLa 評価用データセットJCommonsenseQA HumanEval JHumanEval 実験

監修させていただいている評価指標入門なんですが、株式会社ホクソエムの代表取締役CEOである私、牧山幸史(以下、コージー牧山)、はじめてこの企画を聞いた時は「その特徴は単に評価指標をまとめた辞書やないかい!そういう”売れそうだから書く”みたいな商業的なマインドが学術界の価値を貶め云々」と思ったのですが、上梓された高柳さん(タカヤナギ=サン)の壮大なるお話を聞いているうちに「これはひょっとして数理モデリングとしても奥深い世界が広がっているの?面白いかも!」と思い監修社として名乗りを上げた次第です。 一方、本書の内容と皆様の期待値がややズレているのではないか?と不安には思っておりまして、これは監修社として一肌脱いでおかなければいかんなと、自然界に存在する第5の力「期待値調整力」を見せなければならないなと思い筆を取った次第です。 以下、私、コージー牧山の視点で「書いてあること・書いてないこと・書き

InnovativeTech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 筑波大学落合研究室の研究チームが開発した「Goshuin 2.0: Construction of the World’s LargestGoshuin Dataset and Automatic Generation System ofGoshuin with Neural Style Transfer」(御朱印2.0)は、テキストから御朱印を自動生成する学習ベースのシステムだ。訓練用のデータセットは、寺社1000カ所以上を訪問し取得した御朱印を基に大規模にデータ化した。 御朱印とは、日本の神社やお寺に参拝した証として集められるものだ。御朱印はおおむね、印章と寺社の名称や本尊/祭神の

「ニコニコ動画」の運営で知られるドワンゴは、2014年に「ドワンゴ人工知能研究所」を立ち上げ、今年7月にはゲーム会社との共同出資で、バーチャルリアリティー(VR)システムの運営開発会社「バーチャルキャスト」を立ち上げるなど、人工知能(AI)とVRに力を入れている。同社の創業者・CTOで、カドカワ社長を務める川上量生(50)に、AIとVRのテクノロジーが切り開く、現在とはまったく異なる未来像を聞いた。(聞き手・太田啓之) ■人間にできてAIにできないこと、ない 人間の知性って、実は人間自身が思っているほど高くないと思います。人間同士のコミュニケーションは大抵、場当たり的だし、数学者の新井紀子さんが著書「AI vs.教科書が読めない子どもたち」で明らかにしたように、読解力や論理的思考力を人間はそれほど持っていない。人工知能は現時点でも、大抵の人の知的水準をかなりの部分で上まわっているのではない

はじめに 『機械学習のための特徴量エンジニアリング』の書誌情報 Kaggleのワークフロー 1. (探索的データ分析) 2. ベースラインモデルの構築 3. Validationの構築 4. 特徴量エンジニアリング 5. ハイパーパラメータ調整 6. アンサンブル 『機械学習のための特徴量エンジニアリング』の貢献箇所 Kaggle観点で本書をオススメする読者 おわりに はじめに このたび、『機械学習のための特徴量エンジニアリング』をご恵贈いただきました。 Kaggleと親和性が高い書籍名で、Twitterのタイムラインなどを見るに、Kaggleに興味がある層を中心に大きな注目を集めているようです。本記事では本書の発売に寄せて、Kaggleの自分流のワークフローと「特徴量エンジニアリング」の位置づけについての私見を述べます。その上で本書がKaggleのワークフローのどの部分に寄与するかを説

Google のリサーチ・サイエンティストである Martin Zinkevich 氏によって書かれた、機械学習を使った良いプロダクトを開発するためのコツを集めた記事。エンジニアが良い機械学習プロダクトを作るには、機械学習の専門知識が無いことに苦心するのではなく、得意なエンジニアリングの技術を活かすことが重要、というのが主な趣旨です。 紹介記事:Rules ofMachine Learning: Best Practices for ML Engineering はじめに ほとんどの問題はエンジニアリングに関する問題である 性能向上は、良い機械学習のアルゴリズムではなく、良い素性によってもたらされる機械学習の前に ルール1.本当に必要になるまで機械学習を使わない ルール2. まず指標を設計、実装する ルール3. ヒューリスティックが複雑になりすぎる前に、機械学習に移行する フェーズI

選ばれる理由 選ばれる理由 DataRobot の利点と影響をご確認ください。 発見するAIリーダーAI実践者 エンタープライズAI スイートAI アプリとエージェント エージェント型AI プラットフォーム アプリとエージェント アプリとエージェント DataRobot のプラットフォームとアプリケーションは基幹的なビジネスプロセスに統合できるため、チームは生成AI と予測AI の開発、提供、ガバナンスを大規模に実施可能になります。 部署 財務向けAI サプライチェーンとオペレーション向けAI 特化型ソリューション ソリューション - エネルギー ソリューション - 金融サービス ソリューション - ヘルスケア ソリューション - 製造 共同開発パートナー NVIDIA SAP プラットフォーム プラットフォーム DataRobot のプラットフォームとソリューションは、

まだ仮想通貨の取引の痛手が残っていて株取引はできていない(SBIに口座を開設しただけ…)。 それはさておき、最近興味があったが応用先のない機械学習の知識がついに役に立つ分野が見つかった。競馬だ。 無料で手に入る多数のパラメータがあり、結果がはっきりしていて、しかもリターンが金銭的に入ってくる。 以下の記事を参考に、netkeiba.com のデータを用いてLigthGBMで学習をしている。 cocon-corporation.com cocon-corporation.com また、以下の書籍を参考にして精度を向上している。 ゼロからはじめるデータサイエンス ―Pythonで学ぶ基本と実践 作者: Joel Grus,菊池彰出版社/メーカー: オライリージャパン発売日: 2017/01/25メディア: 単行本(ソフトカバー)この商品を含むブログを見るPythonではじめる機械学習 ―s

「グーグルには売らない」 日本勢は音声翻訳で覇権を握れるか:東京オリンピックに向け開発競争「激化」(1/5 ページ) 「東京オリンピックまでには翻訳精度を高めて、世界最高の翻訳アプリを作りたい」。最新の音声翻訳アプリ『VoiceTra(以下、ボイストラ)』のデモ発表会で、人工知能(AI)を使った音声翻訳技術を開発する国立研究開発法人情報通信研究機構(NICT)の開発担当者である隅田英一郎氏は、こう意気込んでいた。 この日は、空港でスーツケースをなくしたという設定で日本語と中国語でタブレットを使用してのやりとりや、病院において採血と血圧を測定するという中での日本語と英語での会話を、「ボイストラ」を使って翻訳するデモを実施した。1秒もかからずに相手国の言葉に訳され、ネイティブスピーカーと変わらないスムーズな翻訳には驚かされた。 今回のデモでは話す人が静かな環境の中、クリアな声で話したため、間違

――米国や中国に比べ、日本は人工知能開発で遅れているといわれています。なぜ日本はこの競争に負けているのでしょうか。 松尾さん それは、日本がインターネットで世界に負けた理由と似ているのではないでしょうか。 一つは、技術の取り入れ方が非常に遅い点。1990年代後半には若者たちが「これからはネットの時代だ!」と言っていたのに、上の年代の人たちが理解しませんでした。「信用できない」「オタクが使うだけ」と否定し、新しいものが生まれなかった。 今もそれは同じです。一口にAI、人工知能といっても、新しい技術の中心であるディープラーニングに対して、従来の分野へのこだわりが強く、拒否感が強い人も大勢います。 もう一つは、若い人が力を持っていない点。若い人が自分の裁量で自在に動けるような社会環境になっていません。彼らに裁量を与えて何かやらせれば絶対に何か起こるんですけど、それをやらせないから変化が起こらない

スイマセン。クソ煽りタイトルですが、下記の記事のタイトル意訳しただけです。草生やして更にクソさを増してはいます。 NeuralnetworkAI issimple. So… Stop pretending you are a genius 個人的にはぜひ本文読んでこの記事のクソ煽りっぷりを満喫してほしいのですが、英語読むのもメンドクセという方に、何が書いてあるかをさらっとだけ説明すると。 要はニューラルネットワークって、↓のPythonで11行のコード分の処理やってるだけじゃね? こんなの使いまわした程度で「うはwww俺天才www」みたいな顔すんのやめろ、ってことのようです。 まぁハッキリ言って、クソ記事www煽り乙wwwなんですけど。 でもぶっちゃけ、真実なんですよ。ある面においては。 僕も今の会社に入るまでディープラーニングに関する知識ほぼゼロだったけど、今は少なくとも、自分の業
ももひこ97 @momohiko97 #タモリ倶楽部 24時20分~24時50分 今夜遂に大公開!!痴の巨人が解析したデリヘル・ビッグデータ!…最新分析ソフトがたたき出すお宝データ!!この言葉で紹介されているデリヘル嬢は「当たり」!? 2018-01-13 00:12:03

[37選]機械学習ライブラリやフレームワークは? 国内AI活用サービスのアーキテクチャを大調査! Webのアーキテクチャ大調査の第二弾は「AI活用サービス」編。プログラミング言語や機械学習のライブラリをはじめ、フレームワークやツールの選定・設計もサービスによって異なります。ぜひ参考にしてください。 2017年4月に掲載したアーキテクチャ大調査の第二弾! 今回は、人工知能(機械学習、深層学習、画像処理など)を活用したWebサービス・アプリを提供しているベンチャーを中心に、36のサービスで使用されているプログラム言語やフレームワーク、その他さまざまな開発ツールなどをヒアリングのうえまとめました。選定理由を記述いただいた12のサービスでは、それもあわせて紹介しています。 前回との違いは、当然ですがTensorFlowやKerasといった機械学習のライブラリが挙げられていること。また、技術領域もH
![[37選]機械学習ライブラリやフレームワークは? 国内AI活用サービスのアーキテクチャを大調査!](/image.pl?url=https%3a%2f%2fcdn-ak-scissors.b.st-hatena.com%2fimage%2fsquare%2fad1b0d61516babc03c85457e23148d1059c01708%2fheight%3d288%3bversion%3d1%3bwidth%3d512%2fhttps%253A%252F%252Feh-career.com%252Fimage%252Farticle_hub%252F30%252F32%252F230_01.jpg&f=jpg&w=240)
なんかいい映画ないかなぁと思うことは誰にだってありますよね。ちょっと時間ができた時なんかに、映画でも見てみようかと。でもこれはそんなに簡単なことではありません。 世の中にある映画なんて多すぎて一体いくつあるのか分からないくらいですし、一回選んだらだいたい2時間は取られるわけです。おもしろくない映画に2時間奪われるリスク、そして最高の映画を見ずに人生を終えてしまうリスク。こんなハイリスクを背負って僕たちは映画と向き合っていかなければいけません。 恐ろしい。 こんな恐ろしいことがありますか。 でも安心してください。機械学習がそれを解決してくれます。今回の記事では、機械学習を使って、自分自身に映画をおすすめするモデルを作ってみました。 何は無くともまずはデータが必要です。今回はみんなのレビューサイトさんからデータを拝借しています。 みんなのレビューサイトでは、レビュアーが自身のプロフィールを登録

AlphaGo Zeroが自己学習のみで過去最強になったというニュースが出たのでその元論文を読み、要約をしました。 まず感想を述べると、過去数千年にわたって蓄積してきた知識をAIが数時間で発見することに対する気持ち良さがありました。人間などクソ食らえと思っておりますので、こう言うニュースはとてもスッキリします。そして人間の発見していない打ち筋の発見にも感動しました。これこそがAIの真髄だと信じています。人間が見えていないものをAIが見つける、僕もいつかそんなことをしてみたいと思いながら生きています。 あともう一つ重要だと思ったのは、とてもネットワーク構造および学習過程が簡素化されたことです。マシンパワーも過去に比べて非常に少なく済み、個人でもすぐに再現実験ができそうなくらいです。AIが強くなることと、構造および学習のsimplerが同時に達成できていることが本質的だと思います。 一応、下記

この記事は、以下の方向けに執筆しています。 ・とにかくAIブームに乗りたい方 ・転職してAI案件に携わりたい方 ・AIに必要な知識だけをざっくり身に付けたい方 関連記事:AI人材になるにはスキルよりまず職種を選択しよう 清水亮さんがAI人材の不足を言われてから、人材不足感は一向に変わっておらず、むしろ不足感が強まっている。企業が本格的に取り組み始めたのに、検証できる人材が誰もいない。データ分析経験があったり、Pythonでnumpyとか少し触れる人が、AI人材として急に売れっ子になるのを何度も見てきたし、その流れはしばらく続くんだと思う。 BIベンダも最近その流れに乗って売り込み始めた。コンサル会社は、AIコンサルと言い始めた。SIベンダは、AIの専門部署をたくさん作り始めた。メーカーもR&D中心にAI人材を採用しはじめてる。 CONNPASSで機械学習と名の付くセミナーはすべて人気で埋ま

その3の続き 自己対局パイプライン 自己対局パイプラインは、3つの主要な部分から構成される。 最適化 評価 自己対局 これらは並行で実行される。 最適化 ミニバッチサイズ:2,048 (32バッチずつ別々のGPUで実行) ミニバッチデータは直近50万の自己対局のすべての局面からランダムでサンプリング モーメントありのSGDで最適化(モメンタムパラメータ=0.9) 学習率は以下の通り徐々に下げる 1000ステップ 学習率 0-400 400-600 >600 損失関数には、policyの交差エントロピーとvalueの平均二乗誤差の和を使用 policyの交差エントロピーとvalueの平均二乗誤差は等しく重み付けする L2正則化を行う(c=) 損失関数を式にすると以下の通り zは勝敗(-1,1)、vはvalue、はモンテカルロ木探索で求めた局面の遷移確率、はpolicyの遷移確率、はネットワー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く