はじめに

概要

強化学習（Reinforcement Learning, RL）は、動物やエージェントが世界の状態を知覚または推定し、その状態や取れる行動の価値を報酬信号を受け取りながら学習する問題を定義し解決するための枠組みです。重要なことに、強化学習は動物の行動研究から最初に導かれた学習の形式的かつ最適な記述を提供し、その後、モデルで用いられる形式的な量が人間や動物の脳内で観察されることで検証されました。おそらく神経科学において最も広く使われている計算的アプローチの一つです。

以下のチュートリアルでは、強化学習の核心的な概念を学び、最も広く使われているモデルのいくつかを探求します。チュートリアル1では、経験から未来の状態の価値を学ぶ方法を学びます。チュートリアル2では、行動の選択と学習、そして探索と活用のジレンマについて学びます。チュートリアル3では、経験から効率的に行動の未来価値を学ぶ方法を探求します。最後にチュートリアル4では、世界の動的モデルを持つことが学習と行動にどのように役立つかを学びます。

強化学習は広範な枠組みであり、NMAで扱う多くのトピックと深い関連がありますが、核心的な強化学習のアプローチは世界をマルコフ決定問題（Markov Decision Problem）として定義し、これは隠れた動態（Hidden Dynamics）と最適制御（Optimal Control）に基づいています。より広義には、強化学習は経済学、心理学、計算機科学、人工知能など他分野の多くのアイデアや形式を取り入れ、大きく複雑な問題を単純な報酬信号のみで解決できるアルゴリズムやモデルを定義する枠組みと見なすことができます。

# @title Install and import feedback gadget


from vibecheck import DatatopsContentReviewContainer
def content_review(notebook_section: str):
    return DatatopsContentReviewContainer(
        "",  # No text prompt
        notebook_section,
        {
            "url": "https://pmyvdlilci.execute-api.us-east-1.amazonaws.com/klab",
            "name": "neuromatch_cn",
            "user_key": "y1x3mpx5",
        },
    ).render()


feedback_prefix = "W3D4_Intro"

ビデオ

# @markdown
from ipywidgets import widgets
from IPython.display import YouTubeVideo
from IPython.display import IFrame
from IPython.display import display


class PlayVideo(IFrame):
  def __init__(self, id, source, page=1, width=400, height=300, **kwargs):
    self.id = id
    if source == 'Bilibili':
      src = f'https://player.bilibili.com/player.html?bvid={id}&page={page}'
    elif source == 'Osf':
      src = f'https://mfr.ca-1.osf.io/render?url=https://osf.io/download/{id}/?direct%26mode=render'
    super(PlayVideo, self).__init__(src, width, height, **kwargs)


def display_videos(video_ids, W=400, H=300, fs=1):
  tab_contents = []
  for i, video_id in enumerate(video_ids):
    out = widgets.Output()
    with out:
      if video_ids[i][0] == 'Youtube':
        video = YouTubeVideo(id=video_ids[i][1], width=W,
                             height=H, fs=fs, rel=0)
        print(f'Video available at https://youtube.com/watch?v={video.id}')
      else:
        video = PlayVideo(id=video_ids[i][1], source=video_ids[i][0], width=W,
                          height=H, fs=fs, autoplay=False)
        if video_ids[i][0] == 'Bilibili':
          print(f'Video available at https://www.bilibili.com/video/{video.id}')
        elif video_ids[i][0] == 'Osf':
          print(f'Video available at https://osf.io/{video.id}')
      display(video)
    tab_contents.append(out)
  return tab_contents


video_ids = [('Youtube', 'fz5T2QhUjbY'), ('Bilibili', 'BV1MC4y1b7hq')]
tab_contents = display_videos(video_ids, W=854, H=480)
tabs = widgets.Tab()
tabs.children = tab_contents
for i in range(len(tab_contents)):
  tabs.set_title(i, video_ids[i][0])
display(tabs)

スライド

# @markdown
from IPython.display import IFrame
link_id = "cpxqn"
print(f"If you want to download the slides: https://osf.io/download/{link_id}/")
IFrame(src=f"https://mfr.ca-1.osf.io/render?url=https://osf.io/{link_id}/?direct%26mode=render%26action=download%26mode=render", width=854, height=480)

# @title Submit your feedback
content_review(f"{feedback_prefix}_Video")