・Excelはがっつり使える
・Pythonのnumpyやpandasでデータの処理ができる
・SVMや重回帰分析は普通に使える（数式も少しは分かる）
・Chainerを触っている（pipでインストールのみでもOK）
これくらいできると、AI 人材の平均レベル(と相手に思って貰える)なので採用見込みはかなりあると思います。

例えばですが、pythonを自分のパソコンに環境構築して、「Hello,world!」と表示できるようになったら、面接に申し込んで、「少しはpythonできます」と言ってみるのも一つの方法かもしれません。

実際に見分け方がわからなくてこれに引っかかって採用してしまう場合もあるんだろうな、とも思う。

自分がこの手の人材（エンジニア）を採用する場合にどうやって質問をすれば見極められるのかエンジニアの採用にも関わっている身としてを考えてみた。

AI 人材という呼称自体がぞわぞわするけど、一旦そこは我慢する。

取りたいロールをはっきり認識/確認する

まず採用を行う前に、AI 人材を取って何をしてもらいたいのかをチームないし採用意思決定者としっかり確認する。

エンジニア系のAIの仕事と大雑把に言っても

1.画像/映像認識系技術を活用したい
2.大量のデータを対象として分析や予測を行いたい
3.上記大量のデータを貯めたり一括処理したりするための基盤システムを作りたい

など、あとは案件ベースなのか自社開発なのかそれぞれ必要となる能力がオーバーラップしつつも異なっているため。

（以下、今回の目的が1や2だったと仮定する。）

バックグラウンドの確認

・あなたと機械学習の関わりを教えてください
・機械学習で経験のある分野 / 得意な分野 / やってきたことを教えてください（実務でなくてもok）

バックグラウンドを確認する。実務や研究の経験の話が出てくるのがメジャーだと思うが、エンジニアとしてのバックグラウンドがあれば独学勢でも野良kagglerなどレベルの高い人はいるので実務経験に絞らなくても良いと思う

全般 知識の確認

機械学習全般の基本的なところから確認していく。質問としてはこんな感じだと思う

・教師あり学習と教師なし学習の違いを説明してください
・分類問題と回帰問題の違いについて説明してください
・過学習ってなんでしょうか

イメージとしては非エンジニア職でも必要になる「この辺りの言葉が通じないと絶対困ったことになる」一般常識を確認する感じ。

ディープラーニングについて

画像や映像の認識などディープラーニング系の業務が多い想定の場合

・普段使うディープラーニングのライブラリは何ですか

から始まって

・あなたの組んだモデルについて教えてください
・どうやって訓練したのですか？
・どうしてそのような構成にしたのですか？

と突っ込んでいく。

きちんと自分で考えて組めているかを確認するのがメイン。

ディープラーニング以外の機械学習について

・フィッシャー情報量から何が分かるか
・共役事前分布についてどのように用いるものか
・MCMC法で事後確率の近似を取る時に気をつけることを教えてください

確認したいことはディープラーニング「しか」できない人かではないかという点。

ある程度統計やベイズ法周りの知識が無いと詰むため。逆にディープラーニングが不要な業務ならこっち一本でも可。

手法の詳細・原理の説明

・この問題で最尤推定をしてみてください（簡単な文章題）
・勾配降下法について説明してください
・畳み込みニューラルネットワークについて仕組みを説明してください

盲目的にライブラリを使ってるだけでないかという点を確認したい。

SVMを入力に適用するだけならsklearnで5行書くだけで誰でも出来る。手法の背景や対象データの特性をきちんと考えて使っているかを見たい。

・kaggleのコンペに参加したことはあるか
・あればその時の課題と手法をできるだけ詳しく
・メダルの取得状況

kaggleに参加した経験があればnote からその人の手付きを直接評価できるし、メダルという他メンバからも客観的に評価できる定量指標もある。

その他

学習意欲とか普段の姿勢を確認したい。もしかするとここが一番重要かも。

・分からない項目をはっきり分からないと言えるか
・普段何を参考に勉強しているか /論文を読む習慣があるか(最近読んだ論文があれば教えてください）
・今興味のあること

こういう観点も必要、とか○○なんてもう古いよ、みたいなツッコミどころ満載だと思うのでコメント/トラバで突っ込んで欲しい

Permalink |記事への反応(1) | 20:50

ツイートシェア

2015-07-05

■http://anond.hatelabo.jp/20150705102837

俺があげたサイトの「次元の呪い」のセクションには「計算はとっても時間がかかってしまいます。」とあるんだがな。関数値を計算するのは簡単、というのは不正確な言い方で、真の関数値を計算するのが困難だからこそ、簡単に計算可能な関数で代用して、近似的に真の関数値を計算するための仕組みがMCMCだろう。そりゃ、代用で使う関数の値を計算するのは簡単だよ、そのために導入したんだから。

まぁ、計算量の話はどうでもいい。他に知ってる「次元の呪い」の普通の用法は、クラスタリングの際に、高次元空間だとほとんどのデータ点間の類似度が同じ値になってしまって、クラスタリングが失敗しやすくなるという話だな。この現象を「関数が望む性質を持たなくなる」と表現したのが伝わらなかったのかな。クラスタリングの際に使う類似度も関数の一種で、それが望む性質を持たなくなるのだから、間違ってないと思うのだけどな。