G検定用語集

AIのジェネラリスト検定なるものを受けてきました。
自分用の用語集を作ってたので、網羅性はありませんが記録として上げておきます。

人工知能(AI)とは?

人工知能:推論・認識・判断など、人間と同じ知的な処理能力を持つ機械(情報システム)
人工知能:周囲の状況(入力)によって行動(出力)を変えるエージェント(プログラム)
レベル1:シンプルな制御プログラム
レベル2:古典的な人工知能
レベル3:機械学習を取り入れた人工知能
レベル4:ディープラーニングを取り入れた人工知能
人工知能研究:考える(知的な処理能力)という「目に見えないもの」
AI効果:AIの知能を認めずに、単純な自動化であると結論付ける人間の心理
ENIAC:世界初の汎用コンピュータ
ダートマス会議:コンピュータプログラムの実現可能性
ジョン・マッカーシー:「人工知能」という言葉をつかう
ロジック・セオリスト:世界初の人工知能
第一次AIブーム:トイ・プロブレム→「推論・検索の時代」
第二次AIブーム:エキスパートシステム(第五世代コンピュータ)→「知識の時代」
第三次AIブーム:知識を定義する要素を人工知能が自ら習得するディープラーニング→「機械学習と特徴表現学習の時代」
シンギュラリティ:

人工知能をめぐる動向

探索・推論
迷路(探索木)
幅優先探索:最短距離でゴールにたどり着く解を見つける→メモリ不足懸念
深さ優先探索:行き止まりのノードまで行く→メモリはあまりいらないが時間かかる
ハノイの塔:パズル
ロボットの行動計画
プランニング:ロボットの行動計画を探索を利用して作成すること
STRIPS(Stanford Research Institute Problem Solver):前提条件・行動・結果の三点セット
SHRDLU:積み木の世界(プランニングの実現)→Cycへ引き継ぎ
ボードゲーム(オセロ・チェス・将棋・囲碁)
組み合わせ数:囲碁>将棋>チェス>オセロ
コスト:効率よく探索するための概念(ヒューリスティックな知識)
Mini-Max法:自分が指す時にスコアが最大
βカット:不要な枝を切る
αカット:今より大きいノードが現れたらその先の枝を切り落とす
モンテカルロ法:ゲームのある時点でコスト評価からとにかく終わらせるプレイアウトに移行=とにかく数多く打って最良のものを選ぶ
ブルートフォース:力任せ
AlphaGo:ディープラーニングで実装→勝てるようになった

知識表現

人工無脳:チャットボット・おしゃべりボット
ELIZA(ジョセフ・ワイゼンバウム)→イライザ効果
知識ベースのエキスパートシステム(専門分野の知識を取り込む)
マイシン(MYCIN):専門医のエキスパートシステム
DENDRAL:スタンフォード大学製、未知の有機物を特定する
知識獲得のボトルネック(エキスパートシステムの限界)
暗黙知・インタビューシステム
意味ネットワーク(semantic network):概念をラベルの付いたノードで表す
「is a」の関係:継承関係 下位概念(犬1)→上位概念(犬2)
「part-of」の関係:属性(肉球→足)
オントロジー(概念体系を記述するための方法論)
Cycプロジェクト:すべての一般常識をコンピューターに取り込もう計画
=存在論(存在に関する体系的理論)
=概念化の明示的な仕様
オントロジー構築
流れ:対象世界の知識をどのように記述すべきか哲学的にしっかり考えて行うもの
=ヘビーウェイトオントロジー(重量オントロジー)
Cycプロジェクト
流れ:効率を重視し、とにかくコンピュータにデータを読み込ませてできる限り自動的に行うもの
=ライトウェイトオントロジー→ウェブマイニング, データマイニング
ワトソンと東ロボくん→質問に含まれるキーワードと関連しそうな答えを拘束に検索

機械学習・深層学習

データの増加と機械学習
機械学習:人工知能のプログラム自身が学習する仕組み
サンプルデータ数が多ければ多いほど、望ましい学習結果が得られる
ビックデータ:インターネットの成長と共に蓄積された大容量のデータ
レコメンデーションエンジン:ユーザーの好みを推測する
スパムフィルター
機械学習と自然言語処理
統計的自然言語処理:複数の単語をひとまとまりにした単位(句または文単位)
コーパス:対訳データ
深層学習(ディープラーニング):ニューラルネットワークを多層にしたもの
ニューラルネットワーク:人間の神経回路を真似
単純パーセプトロン:1958年に提案した(by フランク・ローゼンブレット)
機械学習>ニューラルネットワーク>ディープラーニング
バックプロパケーション(誤差逆伝播学習法)
自己符号化器:層を深くしても学習することが可能になった
ILSRVRC(Imagenet Large Scale Visual Recognition Challenge):画像認識の精度を競う
特徴量:注目すべきデータの特徴
SuperVision:トロント大学のディープラーニング実装推測器

人工知能分野の問題

トイ・プロブレム:簡単な問題しか解けない
フレーム問題(ダニエル・デネット)今しようとしていることに関係のあることがらだけを選び出すことが非常に難しい
ex.洞窟と爆弾とロボット
チューリングテスト(人工知能ができたかどうかを判定する方法)
アラン・チューリング
≒ローブナーコンテスト
強いAI・弱いAI(ジョン・サール)
強いAI:適切にプログラムされたコンピュータは人間が心を持つのと同じ意味で心を持つ。また、プログラムそれ自身が人間の認知の説明である
=「本物の心を持つ人工知能はコンピューターで実現できる」

弱いAI:コンピュータは人間の心を持つ必要はなく、有用な道具であればよい

→中国語の部屋
ジャー・ペンローズ:皇帝の新しい心ーコンピュータ・心・物理法則
シンボルグラウンディング問題(記号設地問題)
シンボルとその対象がいかにして結び付くか
シマのあるウマ≒シマウマとはならない
身体性:知能が成立するためには身体が不可欠
知識獲得のボトルネック
機械翻訳:ルールベース機械翻訳→統計的機械翻訳→ニューラル機械翻訳
特徴量設計:「注目すべきデータの特徴」選び方
ディープラーニング:特徴表現学習を行う機械学習アルゴリズムの一つ
シンギュラリティ:技術的特異点・レイ・カーツワイル(2045年:人工知能が人間よりも賢くなる年)
→人工知能が十分に賢くなり、自分自身よりも賢い人工知能を作るようになった瞬間、無限に知能の高い存在を作る

代表的な手法

教師あり学習:与えられたデータをもとにそのデータがどんなパターンになるのかを予測・識別するもの
線形回帰(ラッソ回帰・リッジ回帰)
ロジスティック回帰
シグモイド関数(正例・負例)
ランダムフォレスト:ブートストラップサンプリング学習
それぞれの結果を用いて学習する方法:バギング
ブースティング:一部のデータを繰り返し抽出し、複数のモデルを学習させる
勾配ブースティング・XgBoost
サポートベクターマシン:各データ点との距離が最大となるような境界線を求めることで、パターン分類を行う→マージンの最大化
ニューラルネットワーク

教師なし学習:
強化学習

交差検証:訓練用データとテストデータに分ける
ホールドアウト検証
k- 分割交差検証:複数回検証
評価指標:
正解率:全データ中どれだけ予測があたったか
適合率:予測が正の中で、実際に正であったっものの割合
再現性:実際に正であるものの中で、正だと予測できた割合
正則化:過度に重みが訓練データに対してのみ調整されることを防ぐ役割を果たす
L1正則化:一部のパラメータの値をゼロにすることで、特徴選択を行うことができる
L2正則化:パラメータの大きさに応じてゼロに近づけることで、汎化されたなめらかなモデルを得ることができる
アンダーフィッティング:正則化しすぎるとおこる予測性能の低下

ディープラーニングの基本

多層パーセプトロン:入力と出力の関係性が隠れ層の中に表現されている
ディープラーニング:隠れ層を増やしたニューラルネットワーク
問題点:ネットワークを深くすると誤差が最後まで正しく反映されない
→シグモイド関数
=勾配消失問題:隠れ層を遡るごとに伝播していく誤差がどんどん小さくなること


この記事が気に入ったらサポートをしてみませんか?