JDLAのG検定に向けて_2
JDLA(日本ディープラーニング協会)のG検定というのが12/16(土)に実施されるようです.
「ディープラーニングを事業に活かすための知識を有しているかを検定する」を目的としているようなので,事業に活かすための知識を得るためにはこれを取得するために勉強するのも良いかと思ったので,ちょっと勉強してみようと思います.
http://masamasa.hatenadiary.jp/entry/2017/11/12/125725の続きです.
この記事はシラバス「人工知能をめぐる動向」について,参考図書「人工知能は人間を超えるか ディープラーニングの先にあるもの」をもとにまとめて見ました.
探索と推論(第一次AIブーム)
推論
人間の思考過程を記号で表現し,実行する
探索
様々な選択肢のパターンを網羅するように木構造を作り(これを探索木という),どんどん場合分けを進めていくことで 最終的にゴールにたどり着くような方法.
例えば,迷路を解くときに,それぞれの選択肢をとるとどんな状態になるのか?をどんどん木構造で表現していき, ゴールにたどり着くまで続ける. 深さ優先探索とか幅優先探索とか戦略は色々ある.
プランニング
プランニングと呼ばれる,ロボットの行動計画も探索木で作ることができる. 前提条件と行動と結果からなるノードをそれぞれつなぎ合わせることで,最終的に目的達成にたどり着くことができるというもの. 仮想的な世界においては,これは一定の成果を納めるに至った考え方.
だが,探索では迷路や将棋など明確に定義されたルールに基づく問題は解くことができるが,現実的に解きたいような応用問題を解くことが できなかった.現実の問題は複雑すぎたり,ルールが明確でなかったりするので.
これにより期待がしぼみ,第一次AIブームが終わった.
知識表現(第二次AIブーム)
第二次AIブームでは,工場や現実の産業への応用が始まった.
エキスパートシステム
大きな役割を果たしたのは「知識」である. 特定の専門領域の知識を大量に取り込み,推論を行うことで,ある特定の領域におけるエキスパートのように振る舞うことができる ようになったエキスパートシステムというものが作られた. 例えばMYCINというシステムは田先生の血液疾患の患者を診断して適切な抗生物質を処方することを目指す.
この頃のAIには知識を入れるのにコストがかかるという課題や,知識自体の矛盾解決など維持管理が大変だという課題があった.
実際,より汎用的な一般常識を知識として表現しようとするCycプロジェクトというプロジェクトが立ち上がり,実施されているが, 30年経った今でもまだ完遂されていない.
オントロジー研究
さらに,そもそも知識を正しく記述するのが難しいという問題もあり,オントロジー研究という分野が生まれた. その中でもウェブデータの解析などを通して,人間が知識を与えるのではなく機械が勝手に知識を獲得するための方法の研究分野を ライトウェイト・オントロジーと呼ぶ.Wikipediaからライトウェイト・オントロジーで知識を生成し,成功を収めたのがIBMのワトソンである.
知識利用の難しさ
ところで,知識をいっぱい溜め込んだとしても,機械はその意味を理解しているわけではないため,機械が知識を扱うということはかなり難しい問題になる.
フレーム問題
機械は解こうとしている問題に対して知識を活用し解決策を推論するが,解こうとしている問題や背景と関係のある知識なのかない知識なのかを 見分けることができない.
そのため,持っている知識全てについて考え始めるため,知識の量が増えるに従って,機械が考える領域が広がり, 実用に耐えるレスポンスタイムを得ることが難しい.人間は関係のある知識とない知識を無意識に選別できるが,機械はこれができない. これをフレーム問題と呼ぶ.
シンボルグラウンディング問題
知識として得られた概念(記号)と実際のモノを結びつけることが機械はできない.
「シマウマは縞模様の馬である」という知識を得たとしても,それぞれが実際のモノと結びつかないため,例えば人間が 初めてシマウマを見たときに,前述の知識から「シマウマってこれか」と思いつけるが,機械はそれができない.
このような問題をシンボルグラウンディング問題と呼ぶ.
これを解決し,モノと概念を結びつけるためには,「身体」をもつ必要があると主張する科学者がいて, そのような考え方に基づいた研究を「身体性」に基づく研究と呼称する.
機械学習
プログラム自身がデータから学習する仕組みのこと. 大量のデータの中から,例えば分類タスクの場合は「分け方」を見つけ出す. 分け方の見つけかたには色々あるが,なんにせよ,分け方を見つけ出す.
分け方を見つけ出す作業を学習と呼び,これには大量のデータを対象に長い時間をかける必要がある. 一方で,得られた新しいデータを分ける作業は一瞬でできる.
機械学習にも問題があり,それは分けるためにどの情報に着目したら良いか?は人間が決める必要があるという点だった.
注目する情報のことを特徴量と呼ぶ.例えば画像認識であればエッジに注目したり,尖った部分に注目させたりといったような特徴量を人間が設計してあげるしかなかった.
この作業が結局キモになる作業であり,高い技術力と時間をかけて調整する必要があるものだった.
深層学習
2012年の画像認識コンペ「ILSVRC」にてトロント大学が革命を起こした. エラー率で10%以上の大差をつけて,優勝した.
これまでは,いかに特徴量を設計するか?という点で各研究機関がしのぎを削っていたが,トロント大学はこの特徴量を機械が自分で見つけ出すという方法で大きな成果を出した.
これが深層学習であり,上記の通り特徴量を機械が自分で獲得することから,特徴表現学習とも呼ばれる.
特徴表現の問題は第一次AIブームや第二次AIブームで問題になっていたような問題の根本にあった課題であり,これに対する回答が示されたため, 機械学習の分野の大きな飛躍が期待されている.これが現在の第三次AIブームに繋がっている.