Open In Colab   Open in Kaggle

はじめに

概要

今日は最適制御について学びます。これまで隠れた状態についての推論を観察から行ってきましたが、今回は実際に行動を起こします。イントロ動画では形式的な枠組みを説明します:動的なプロセスに対して行動を選択し、効用関数を最大化するように行動を決定します。チュートリアルでは、二値変数とガウス変数の例として、釣りとアストロキャットの2つの例を引き続き扱います。釣りの例では、隠れマルコフモデルを使って魚の位置を推定し、その情報をもとに釣り場を更新して最も多くの魚を捕まえます。アストロキャットの例では、猫のジェットパックを使って猫を目標に留める方法を学びます。学習の核心は、知識を活用して良い行動を選択するアルゴリズムを理解し実装することです。アウトロ動画では、これらの考え方が計画の仕方にどのように応用されるかを紹介します。

最適制御は、隠れマルコフモデルを用いた隠れ動態のレッスンと、事後分布と効用関数を組み合わせたベイズのレッスンのアイデアを統合しています。また、世界の仕組みを理解する前に制御を学ぶ強化学習の後のレッスンとも直接つながっています。対照的に、最適制御は世界の仕組みを既に知っていることを前提としています。

最適制御は運動神経科学において重要なモデルであり、動物がどのように動くべきかの原理的な基準を提供します。また、脳-コンピュータ・インターフェースやニューロンの活動パターンを目標に固定する技術など、工学的にも重要な手法です。

# @title Install and import feedback gadget


from vibecheck import DatatopsContentReviewContainer
def content_review(notebook_section: str):
    return DatatopsContentReviewContainer(
        "",  # No text prompt
        notebook_section,
        {
            "url": "https://pmyvdlilci.execute-api.us-east-1.amazonaws.com/klab",
            "name": "neuromatch_cn",
            "user_key": "y1x3mpx5",
        },
    ).render()


feedback_prefix = "W3D3_Intro"

ビデオ

# @markdown
from ipywidgets import widgets
from IPython.display import YouTubeVideo
from IPython.display import IFrame
from IPython.display import display


class PlayVideo(IFrame):
  def __init__(self, id, source, page=1, width=400, height=300, **kwargs):
    self.id = id
    if source == 'Bilibili':
      src = f'https://player.bilibili.com/player.html?bvid={id}&page={page}'
    elif source == 'Osf':
      src = f'https://mfr.ca-1.osf.io/render?url=https://osf.io/download/{id}/?direct%26mode=render'
    super(PlayVideo, self).__init__(src, width, height, **kwargs)


def display_videos(video_ids, W=400, H=300, fs=1):
  tab_contents = []
  for i, video_id in enumerate(video_ids):
    out = widgets.Output()
    with out:
      if video_ids[i][0] == 'Youtube':
        video = YouTubeVideo(id=video_ids[i][1], width=W,
                             height=H, fs=fs, rel=0)
        print(f'Video available at https://youtube.com/watch?v={video.id}')
      else:
        video = PlayVideo(id=video_ids[i][1], source=video_ids[i][0], width=W,
                          height=H, fs=fs, autoplay=False)
        if video_ids[i][0] == 'Bilibili':
          print(f'Video available at https://www.bilibili.com/video/{video.id}')
        elif video_ids[i][0] == 'Osf':
          print(f'Video available at https://osf.io/{video.id}')
      display(video)
    tab_contents.append(out)
  return tab_contents


video_ids = [('Youtube', 'Ij8Rpq_fh7s'), ('Bilibili', 'BV11g411y7HM')]
tab_contents = display_videos(video_ids, W=854, H=480)
tabs = widgets.Tab()
tabs.children = tab_contents
for i in range(len(tab_contents)):
  tabs.set_title(i, video_ids[i][0])
display(tabs)

スライド

# @markdown
from IPython.display import IFrame
link_id = "2uc6v"
print(f"If you want to download the slides: https://osf.io/download/{link_id}/")
IFrame(src=f"https://mfr.ca-1.osf.io/render?url=https://osf.io/{link_id}/?direct%26mode=render%26action=download%26mode=render", width=854, height=480)
# @title Submit your feedback
content_review(f"{feedback_prefix}_Video")