JP2018165692A

JP2018165692A - 運転支援方法およびそれを利用した運転支援装置、自動運転制御装置、車両、プログラム、提示システム

Info

Publication number: JP2018165692A
Application number: JP2017063658A
Authority: JP
Inventors: 江村　恒一; Koichi Emura; 恒一江村; 本村　秀人; Hideto Motomura; 秀人本村
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2017-03-28
Filing date: 2017-03-28
Publication date: 2018-10-25

Abstract

【課題】乗員の意図を反映するような運転行動を導出する技術を提供する。【解決手段】生成部９０は、複数種類の運転行動が示された提示情報を生成する。提示情報出力部は、提示情報を報知装置に出力する。操作信号入力部には、提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される。選択部９４は、操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する。学習部７４は、操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行し、操作信号が未入力である場合、選択部９４において選択した１つの運転行動に重み付けを実行する。学習部７４は、操作信号が未入力である場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくする。【選択図】図３

Description

本発明は、車両、車両に設けられる運転支援方法およびそれを利用した運転支援装置、自動運転制御装置、プログラム、提示システムに関する。

自動運転車両は、車両の周囲の状況を検知し、従来乗員が意図し実行していた運転行動を自動的に実行することによって走行する。このような自動運転車両には、乗員が意図する運転行動と、自動運転車両の運転行動とが乖離しないように、乗員が運転行動を変更するための運転支援装置が搭載される。運転支援装置は、実行可能な運転行動を提示し、乗員に運転行動を選択させる（例えば、特許文献１参照）。

国際公開第１６／１７０７６３号

提示した運転行動の中に乗員が希望する運転行動が含まれない場合、乗員は、希望する運転行動を選択できない。そのため、乗員の意図を反映するような運転行動を提示することが望まれる。

本発明はこうした状況に鑑みなされたものであり、その目的は、乗員の意図を反映するような運転行動を導出する技術を提供することにある。

上記課題を解決するために、本発明のある態様の運転支援装置は、運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、生成部において生成した提示情報を報知装置に出力する提示情報出力部と、報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、操作信号入力部に操作信号が未入力である場合、選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備える。学習部は、操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、操作信号入力部に操作信号が入力された場合の重み付けの値を大きくする。

本発明の別の態様は、自動運転制御装置である。この装置は、運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、生成部において生成した提示情報を報知装置に出力する提示情報出力部と、報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動をもとに車両の自動運転を制御し、操作信号入力部に操作信号が未入力である場合、選択部において選択した１つの運転行動をもとに車両の自動運転を制御する自動運転制御部と、操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、操作信号入力部に操作信号が未入力である場合、選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、学習部は、操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、操作信号入力部に操作信号が入力された場合の重み付けの値を大きくする。

本発明のさらに別の態様は、車両である。この車両は、運転支援装置を備える車両であって、運転支援装置は、運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、生成部において生成した提示情報を報知装置に出力する提示情報出力部と、報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、操作信号入力部に操作信号が未入力である場合、選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備える。学習部は、操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、操作信号入力部に操作信号が入力された場合の重み付けの値を大きくする。

本発明のさらに別の態様は、運転支援方法である。この方法は、運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成するステップと、生成した提示情報を報知装置に出力するステップと、報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力されるステップと、操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択するステップと、操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、操作信号が未入力である場合、選択するステップにおいて選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップとを備える。操作信号が未入力である場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくする。

本発明のさらに別の態様は、提示システムである。この提示システムは、運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、生成部において生成した提示情報を出力する提示情報出力部とを備える運転支援装置と、運転支援装置から出力された提示情報を報知する報知装置とを備える。運転支援装置は、報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、操作信号入力部に操作信号が未入力である場合、選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とをさらに備える。学習部は、操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、操作信号入力部に操作信号が入力された場合の重み付けの値を大きくする。

なお、以上の構成要素の任意の組合せ、構成要素の一部、例えば学習部、を通信網を介したコンピュータで逐次あるいは一日など所定時間分をまとめて処理する構成、本発明の表現を装置、システム、方法、プログラム、プログラムを記録した記録媒体、本装置を搭載した車両などの間で変換したものもまた、本発明の態様として有効である。

本発明によれば、乗員の意図を反映するような運転行動を導出できる。

実施の形態１乃至３に係る車両の構成を示す図である。実施の形態１乃至３に係る車両の室内を模式的に示す図である。実施の形態１乃至３に係る制御部の構成を示す図である。実施の形態１乃至３に係るヒストグラム生成部において生成されるヒストグラムを示す図である。図５（ａ）乃至（ｃ）は、図３の表示制御部の処理概要を示す図である。実施の形態１に係る制御部による処理手順を示すフローチャートである。図７（ａ）乃至（ｅ）は、実施の形態２に係る表示制御部の処理概要を示す図である。実施の形態２に係る制御部による生成手順を示すフローチャートである。実施の形態３に係る制御部による生成手順を示すフローチャートである。

（実施の形態１）
本発明を具体的に説明する前に、概要を述べる。本実施の形態は、自動車の自動運転に関する。特に、本実施の形態は、車両の運転行動に関する情報を車両の乗員（例えば運転者）との間でやり取りするためのＨＭＩ（ＨｕｍａｎＭａｃｈｉｎｅＩｎｔｅｒｆａｃｅ）を制御する装置（以下「運転支援装置」とも呼ぶ。）に関する。本実施の形態における各種の用語は次のように定義される。「運転行動」は、車両の走行中または停止時の操舵や制動などの作動状態、もしくは自動運転制御に係る制御内容を含んでおり、例えば、定速走行、加速、減速、一時停止、停止、車線変更、進路変更、右左折、駐車などである。また、運転行動は、巡航（車線維持で車速維持）、車線維持、先行車追従、追従時のストップアンドゴー、追越、合流車両への対応、高速道への進入と退出を含めた乗換（インターチェンジ）、合流、工事ゾーンへの対応、緊急車両への対応、割込み車両への対応、右左折専用レーンへの対応、歩行者・自転車とのインタラクション、車両以外の障害物回避、標識への対応、右左折・Ｕターン制約への対応、車線制約への対応、一方通行への対応、交通標識への対応、交差点・ラウンドアバウトへの対応などであってもよい。

「運転行動推定エンジン」として、ＤＬ（ＤｅｅｐＬｅａｒｎｉｎｇ：深層学習）、ＭＬ（ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ：機械学習）、フィルタ等のいずれか、あるいはそれらの組合せが使用される。ＤｅｅｐＬｅａｒｎｉｎｇは、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ：畳み込みニューラルネットワーク)、ＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ：リカレント・ニューラル・ネットワーク)である。また、ＭａｃｈｉｎｅＬｅａｒｎｉｎｇは、例えば、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）である。さらに、フィルタは、例えば、協調フィルタリングである。

「運転行動モデル」は、運転行動推定エンジンに応じて一意に定められる。ＤＬの場合の運転行動モデルは学習されたニューラルネットワーク（ＮｅｕｒａｌＮｅｔｗｏｒｋ）であり、ＳＶＭの場合の運転行動モデルは学習された予測モデルであり、協調フィルタリングの場合の運転行動モデルは走行環境データと運転行動データとを紐付けたデータである。ルールの場合の運転行動モデルは入力と出力とを紐付けたデータである。

このような定義のもと、運転支援装置は、機械学習等により生成した運転行動モデルを用いて複数の運転行動を推定する。さらに、運転支援装置は、信頼度が最も高い運転行動を選択して、選択した運転行動に応じた自動運転を実行させる。信頼度とは、推定された運転行動の確からしさを示しており、ＤＬの場合に推定結果の累積値に相当し、ＳＶＭの場合に信頼値（ｃｏｎｆｉｄｅｎｃｅｖａｌｕｅ）に相当し、協調フィルタリングの場合に相関度に相当する。ルールの場合にルールの信頼度に相当する。そのため、信頼度が最も高い運転行動は、安全性の高い運転行動である。しかしながら、当該運転行動が、乗員の意図を反映した運転行動でない場合があり、乗員の意図を反映するような運転行動を導出することが望まれる。

そのため、本実施の形態では、選択された運転行動をもとに強化学習を実行することによって、運転行動モデルを更新する。その際、強化学習における報酬として、運転支援装置によって運転行動が選択された場合に対する報酬よりも、乗員によって運転行動が選択された場合に対する報酬を大きくする。その結果、乗員によって選択された運転行動の信頼度が以後高くなりやすくなり、乗員の意図が反映されやすくなる。以下、本発明の実施の形態について、図面を参照して詳細に説明する。なお、以下に説明する各実施の形態は一例であり、本発明はこれらの実施の形態により限定されるものではない。

図１は、実施の形態１に係る車両１００の構成を示し、特に自動運転車両に関する構成を示す。車両１００は、自動運転モードで走行可能であり、報知装置２、入力装置４、無線装置８、運転操作部１０、検出部２０、自動運転制御装置３０、運転支援装置４０を含む。図１に示す各装置の間は、専用線あるいはＣＡＮ（ＣｏｎｔｒｏｌｌｅｒＡｒｅａＮｅｔｗｏｒｋ）等の有線通信で接続されてもよい。また、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）、Ｅｔｈｅｒｎｅｔ（登録商標）、Ｗｉ−Ｆｉ（登録商標）、Ｂｌｕｅｔｏｏｔｈ（登録商標）等の有線通信または無線通信で接続されてもよい。

報知装置２は、車両１００の走行に関する情報を乗員に報知する。報知装置２は、例えば、車内に設置されているカーナビゲーションシステム、ヘッドアップディスプレイ、センタディスプレイである。報知装置２は、ステアリングホイール、ピラー、ダッシュボード、メータパネル周りなどに設置されているＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）などの発光体などのような情報を表示する表示部でもよい。また、報知装置２は、情報を音声に変換して乗員に報知するスピーカであってもよいし、あるいは、乗員が感知できる位置（例えば、乗員の座席、ステアリングホイールなど）に設けられる振動体であってもよい。さらに、報知装置２は、これらの組合せであってもよい。

入力装置４は、乗員による操作入力を受けつけるユーザインタフェース装置である。例えば入力装置４は、タッチパネル、レバー、ボタン、スイッチ、ジョイスティックやボリューム等のコントローラ、非接触でジェスチャーを認識するカメラ等のセンサ、音声を認識するマイク等のセンサや、それらの組合せであり、乗員が入力した自車の自動運転に関する情報を受けつける。また、自動運転と手動運転を切りかえるための操作信号を受けつけてもよい。入力装置４は、受けつけた情報を操作信号として運転支援装置４０に出力する。

図２は、車両１００の室内を模式的に示す。報知装置２は、ヘッドアップディスプレイ（ＨＵＤ、Ｈｅａｄ−ＵｐＤｉｓｐｌａｙ）２ａであってもよく、センタディスプレイ２ｂであってもよい。入力装置４は、ステアリング１１に設けられた第１操作部４ａであってもよく、運転席と助手席との間に設けられた第２操作部４ｂであってもよく、ジェスチャーを認識するカメラ等のセンサである第３操作部４ｃであってもよい。なお、報知装置２と入力装置４は一体化されてもよく、例えばタッチパネルディスプレイとして実装されてもよい。車両１００には、自動運転に関する情報を音声にて乗員へ提示するスピーカ６がさらに設けられてもよい。この場合、運転支援装置４０は、自動運転に関する情報を示す画像を報知装置２に表示させ、それとともに、またはそれに代えて、自動運転に関する情報を示す音声をスピーカ６から出力させてもよい。図１に戻る。

無線装置８は、携帯電話通信システム、ＷＭＡＮ（ＷｉｒｅｌｅｓｓＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）等に対応しており、無線通信を実行する。具体的に説明すると、無線装置８は、ネットワーク３０２を介してサーバ３００と通信する。サーバ３００は車両１００外部の装置であり、運転行動学習部３１０を含む。運転行動学習部３１０については後述する。なお、サーバ３００と運転支援装置４０は、運転支援システム５００に含められる。

運転操作部１０は、ステアリング１１、ブレーキペダル１２、アクセルペダル１３、ウィンカスイッチ１４を備える。ステアリング１１、ブレーキペダル１２、アクセルペダル１３、ウィンカスイッチ１４は、ステアリングＥＣＵ、ブレーキＥＣＵ、エンジンＥＣＵとモータＥＣＵおよびウィンカコントローラにより電子制御が可能である。自動運転モードにおいて、ステアリングＥＣＵ、ブレーキＥＣＵ、エンジンＥＣＵ、モータＥＣＵは、自動運転制御装置３０から供給される制御信号に応じて、アクチュエータを駆動する。またウィンカコントローラは、自動運転制御装置３０から供給される制御信号に応じてウィンカランプを点灯あるいは消灯する。

検出部２０は、車両１００の周囲状況および走行状態を検出する。検出部２０は、例えば、車両１００の速度、車両１００に対する先行車両の相対速度、車両１００と先行車両との距離、車両１００に対する側方車線の車両の相対速度、車両１００と側方車線の車両との距離、車両１００の位置情報を検出する。検出部２０は、検出した各種情報（以下、「検出情報」という）を自動運転制御装置３０に出力する。また、検出部２０は、自動運転制御装置３０を介して運転支援装置４０に検出情報を出力してもよいし、運転支援装置４０に直接出力してもよい。検出部２０は、位置情報取得部２１、センサ２２、速度情報取得部２３、地図情報取得部２４を含む。

位置情報取得部２１は、ＧＮＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ（ｓ））受信機から車両１００の現在位置を取得する。センサ２２は、車外の状況および車両１００の状態を検出するための各種センサの総称である。車外の状況を検出するためのセンサとして例えばカメラ、ミリ波レーダ、ＬＩＤＡＲ（ＬｉｇｈｔＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ、ＬａｓｅｒＩｍａｇｉｎｇＤｅｔｅｃｔｉｏｎａｎｄＲａｎｇｉｎｇ）、ソナー、気温センサ、気圧センサ、湿度センサ、照度センサ等が搭載される。車外の状況は、車線情報を含む自車の走行する道路状況、天候を含む環境、自車周辺状況、近傍位置にある他車両（隣接車線を走行する他車両等）を含む。なお、センサ２２が検出できる車外の情報であれば何でもよい。また車両１００の状態を検出するためのセンサ２２として例えば、加速度センサ、ジャイロセンサ、地磁気センサ、傾斜センサ等が搭載される。

速度情報取得部２３は、車速センサから車両１００の現在速度を取得する。地図情報取得部２４は、地図データベースから車両１００の現在位置周辺の地図情報を取得する。地図データベースは、車両１００内の記録媒体に記録されていてもよいし、使用時にネットワークを介して地図サーバからダウンロードしてもよい。なお、地図情報には、道路、交差点に関する情報が含まれている。

自動運転制御装置３０は、自動運転制御機能を実装した自動運転コントローラであり、自動運転における車両１００の行動を決定する。自動運転制御装置３０は、制御部３１、記憶部３２、Ｉ／Ｏ（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、入出力）部３３を備える。制御部３１の構成はハードウェア資源とソフトウェア資源の協働、またはハードウェア資源のみにより実現できる。ハードウェア資源としてプロセッサ、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、その他のＬＳＩを利用でき、ソフトウェア資源としてオペレーティングシステム、アプリケーション、ファームウェア等のプログラムを利用できる。記憶部３２は、フラッシュメモリ等の不揮発性記録媒体を備える。Ｉ／Ｏ部３３は、各種の通信フォーマットに応じた通信制御を実行する。例えば、Ｉ／Ｏ部３３は、自動運転に関する情報を運転支援装置４０に出力するとともに、制御コマンドを運転支援装置４０から入力する。また、Ｉ／Ｏ部３３は、検出情報を検出部２０から入力する。

制御部３１は、運転支援装置４０から入力した制御コマンド、検出部２０あるいは各種ＥＣＵから収集した各種情報を自動運転アルゴリズムに適用して、車両１００のアクセルスロットル開度、ステアリング舵角等の自動制御対象を制御するための制御値を算出する。制御部３１は算出した制御値を、各制御対象のＥＣＵまたはコントローラに伝達する。本実施の形態ではステアリングＥＣＵ、ブレーキＥＣＵ、エンジンＥＣＵ、ウィンカコントローラに伝達する。なお電気自動車あるいはハイブリッドカーの場合、エンジンＥＣＵに代えてまたは加えてモータＥＣＵに制御値を伝達する。

運転支援装置４０は、車両１００と乗員との間のインタフェース機能を実行するＨＭＩコントローラであり、制御部４１、記憶部４２、Ｉ／Ｏ部４３を備える。制御部４１は、ＨＭＩ制御等の各種データ処理を実行する。制御部４１は、ハードウェア資源とソフトウェア資源の協働、またはハードウェア資源のみにより実現できる。ハードウェア資源としてプロセッサ、ＲＯＭ、ＲＡＭ、その他のＬＳＩを利用でき、ソフトウェア資源としてオペレーティングシステム、アプリケーション、ファームウェア等のプログラムを利用できる。

記憶部４２は、制御部４１により参照され、または更新されるデータを記憶する記憶領域である。例えばフラッシュメモリ等の不揮発の記録媒体により実現される。Ｉ／Ｏ部４３は、各種の通信フォーマットに応じた各種の通信制御を実行する。Ｉ／Ｏ部４３は、操作信号入力部５０、画像・音声出力部５１、検出情報入力部５２、コマンドＩＦ（Ｉｎｔｅｒｆａｃｅ、インタフェース）５３、通信ＩＦ５６を備える。

操作信号入力部５０は、入力装置４に対してなされた乗員もしくは車外にいるユーザの操作による操作信号を入力装置４から受信し、制御部４１へ出力する。画像・音声出力部５１は、制御部４１が生成した画像データあるいは音声メッセージを報知装置２へ出力して表示させる。検出情報入力部５２は、検出部２０による検出処理の結果であり、車両１００の現在の周囲状況および走行状態を示す検出情報を検出部２０から受信し、制御部４１へ出力する。

コマンドＩＦ５３は、自動運転制御装置３０とのインタフェース処理を実行し、行動情報入力部５４とコマンド出力部５５を含む。行動情報入力部５４は、自動運転制御装置３０から送信された車両１００の自動運転に関する情報を受信し、制御部４１へ出力する。コマンド出力部５５は、自動運転制御装置３０に対して自動運転の態様を指示する制御コマンドを、制御部４１から受けつけて自動運転制御装置３０へ送信する。

通信ＩＦ５６は、無線装置８とのインタフェース処理を実行する。通信ＩＦ５６は、制御部４１から出力されたデータを無線装置８へ送信し、無線装置８から車外の装置へ送信させる。また、通信ＩＦ５６は、無線装置８により転送された、車外の装置からのデータを受信し、制御部４１へ出力する。

なお、ここでは、自動運転制御装置３０と運転支援装置４０は別個の装置として構成される。変形例として、図１の破線で示すように、自動運転制御装置３０と運転支援装置４０を１つのコントローラに統合してもよい。言い換えれば、１つの自動運転制御装置が、図１の自動運転制御装置３０と運転支援装置４０の両方の機能を備える構成であってもよい。さらに、報知装置２、運転支援装置４０が組み合わされた提示システムとして構成されてもよい。

図３は、制御部４１の構成を示す。制御部４１は、運転行動推定部７０、表示制御部７２、学習部７４を含む。運転行動推定部７０は、運転行動モデル８０、推定部８２、ヒストグラム生成部８４を含み、表示制御部７２は、生成部９０、処理部９２を含み、処理部９２は選択部９４を含む。

運転行動推定部７０は、車両１００が実行しうる複数の運転行動の候補のうち、現在の状況において実現可能な運転行動を判定するために、予め学習により構築されたニューラルネットワーク（ＮＮ）を使用する。ここで、実現可能な運転行動は複数であってもよく、運転行動を判定することは運転行動を推定することともいえる。

運転行動推定部７０での処理には、図１のサーバ３００における運転行動学習部３１０も関連するので、ここでは、運転行動学習部３１０の処理をまず説明する。運転行動学習部３１０は、複数の運転者の運転履歴と走行履歴の少なくとも１つをパラメータとしてニューラルネットワークに入力する。また、運転行動学習部３１０は、ニューラルネットワークからの出力が、入力したパラメータに対応した教師付けデータに一致するように、ニューラルネットワークの重みを最適化する。運転行動学習部３１０は、このような処理を繰り返し実行することによって、運転行動モデル８０を生成する。つまり、運転行動モデル８０は、重みが最適化されたニューラルネットワークである。サーバ３００は、運転行動学習部３１０において生成した運転行動モデル８０をネットワーク３０２、無線装置８を介して運転支援装置４０に出力する。なお、運転行動学習部３１０は、新たなパラメータをもとに運転行動モデル８０を更新してもよい。その際、更新された運転行動モデル８０は、リアルタイムに運転支援装置４０へ出力されてもよいし、遅延をもって運転支援装置４０へ出力されてもよい。

運転行動学習部３１０によって生成され、かつ運転行動推定部７０に入力された運転行動モデル８０は、複数の運転者の運転履歴と走行履歴の少なくとも１つから構築したニューラルネットワークである。また、運転行動モデル８０は、複数の運転者の走行履歴と走行履歴から構築したニューラルネットワークを、特定の運転者の走行履歴と走行履歴を用いた転移学習により、構築し直したニューラルネットワークであってもよい。ニューラルネットワークの構築には公知の技術が使用されればよいので、ここでは説明を省略する。なお、図３の運転行動推定部７０には１つの運転行動モデル８０が含まれているが、運転者、乗員、走行シーン、天候、国ごとに複数の運転行動モデル８０が運転行動推定部７０に含まれていて、状況を自動的に判定するか、手動で変更することにより切りかえてもよい。

推定部８２は、運転行動モデル８０を用いて、運転行動を推定する。ここで、運転履歴は、車両１００によって過去になされた複数の運転行動のそれぞれに対応した複数の特徴量（以下、「特徴量セット」という）を示す。運転行動に対応した複数の特徴量は、例えば、車両１００によって当該運転行動がなされた時点から所定時間前の時点における車両１００の走行状態を示す量である。特徴量は、例えば、同乗者数、車両１００の速さやその時系列、ハンドルの操舵量やその時系列、ブレーキの度合いやその時系列、アクセルの度合いやその時系列などである。運転履歴は、運転特性モデルといわれてもよい。そのため、特徴量は、例えば、速度に関する特徴量、ステアリングに関する特徴量、操作タイミングに関する特徴量、車外センシングに関する特徴量、または車内センシングに関する特徴量等である。これらの特徴量は、図１の検出部２０によって検出されて、Ｉ／Ｏ部４３経由で推定部８２に入力される。また、これらの特徴量は、複数の運転者の走行履歴と走行履歴に加えられ、新たにニューラルネットワークの再構築に用いてもよい。さらに、これらの特徴量は、特定の運転者の走行履歴と走行履歴に加えられ、新たにニューラルネットワークの再構築に用いてもよい。

走行履歴は、車両１００によって過去になされた複数の運転行動のそれぞれに対応した複数の環境パラメータ（以下、「環境パラメータセット」という）を示す。運転行動に対応した複数の環境パラメータは、例えば、車両１００によって当該運転行動がなされた時点から所定時間前の時点やその時点以前の所定範囲の時系列における車両１００の環境（周囲の状況）を示すパラメータである。環境パラメータは、例えば、自車両の速度、自車両に対する先行車両の相対速度、先行車をセンサがとらえる大きさ、および先行車両と自車両との車間距離などである。また、これらの環境パラメータは、図１の検出部２０によって検出されて、Ｉ／Ｏ部４３経由で推定部８２に入力される。また、これらの環境パラメータは、複数の運転者の走行履歴と走行履歴に加えられ、新たにニューラルネットワークの再構築に用いてもよい。さらに、これらの環境パラメータは、特定の運転者の走行履歴と走行履歴に加えられ、新たにニューラルネットワークの再構築に用いてもよい。

推定部８２は、運転履歴あるいは走行履歴に含まれる特徴量セットあるいは／および環境パラメータを取得する。推定部８２は、運転行動モデル８０のニューラルネットワークに特徴量セットあるいは／および環境パラメータを入力し、ニューラルネットワークからの出力を推定結果としてヒストグラム生成部８４に出力する。

ヒストグラム生成部８４は、推定部８２から、複数種類の運転行動と、各運転行動に対応する推定結果とを取得し、その運転行動に対する推定結果の累積値を示すヒストグラムを生成する。そのため、ヒストグラムには、複数種類の運転行動と、各運転行動に対応した累積値とが含まれる。ここで、累積値とは、運転行動に対する推定結果が導出された回数を累積した値である。

図４は、ヒストグラム生成部８４において生成されるヒストグラムを示す。ヒストグラムには、一例として５種類の運転行動である運転行動Ａ〜Ｅが含まれる。また、運転行動Ａ〜Ｅのそれぞれに対する累積値が含まれる。ここでは、累積値が大きい順に、運転行動Ｃ、運転行動Ｅ、運転行動Ｂ、運転行動Ｄ、運転行動Ａであるとする。図３に戻る。ヒストグラム生成部８４は、生成したヒストグラムを生成部９０に出力する。

生成部９０は、ヒストグラム生成部８４からヒストグラム、つまり複数種類の運転行動と、各運転行動に対応した累積値とを入力する。生成部９０は、複数種類の運転行動のそれぞれの累積値が大きい順に所定数の運転行動を選択する。例えば、生成部９０は、「５」の運転行動のうちから「３」の運転行動を選択する。なお、選択される運転行動の数は「３」に限定されない。選択された運転行動は、ヒストグラム生成部８４からの複数種類の運転行動のうち、一部の運転行動ともいえる。なお、先行車が減速した場合に、加速して車間距離を詰めるといった危険を及ぼす運転行動を除外するなど、交通安全に沿ったルールベースに基づいて推定された安全な運転行動に限ってもよい。生成部９０は、選択した運転行動が示された提示情報を生成する。図４の場合、提示情報には、運転行動Ｃ、運転行動Ｅ、運転行動Ｂが含まれており、提示情報では、累積値が大きい順にこれらの運転行動が並べられているものとする。生成部９０は、生成した提示情報を処理部９２に出力する。

処理部９２は、生成部９０からの提示情報を受けつける。処理部９２は、図１の画像・音声出力部５１を介して、図２のヘッドアップディスプレイ２ａあるいはセンタディスプレイ２ｂに提示情報を出力する。ヘッドアップディスプレイ２ａあるいはセンタディスプレイ２ｂは、提示情報の画像を表示する。なお、処理部９２は、図１の画像・音声出力部５１を介して、図２のスピーカ６に提示情報を出力してもよい。その際、スピーカ６は、提示情報の音声メッセージを出力する。

図５（ａ）−（ｃ）は、表示制御部７２の処理概要を示す。図５（ａ）は、センタディスプレイ２ｂにおいて表示される提示情報の画像を示す。この提示情報の画像は図４をもとに生成されており、累積値が大きい順番に、運転行動Ｃ、運転行動Ｅ、運転行動Ｂが上から下に並んで配置される。また、累積値が大きいほど、文字のサイズが大きくされる。つまり、センタディスプレイ２ｂに表示される画像では、提示情報において前方に配置された運転行動ほど、画面の上方に配置されるとともに、文字のサイズが大きくされる。これらは、累積値である信頼度が高い運転行動ほど、乗員に選択されやすくするためである。

なお、ヘッドアップディスプレイ２ａに提示情報の画像が表示される場合、当該画像は、図５（ａ）と同様である。図５（ｂ）は、センタディスプレイ２ｂにおいて表示される提示情報の画像であって、かつ運転行動Ｃ、運転行動Ｅ、運転行動Ｂを実際の運転行動に対応付けた場合の提示情報の画像を示す。ここでは、運転行動Ｃは「直進」に対応し、運転行動Ｅは「右折」に対応し、運転行動Ｂは「左側に車線変更」に対応するとする。以下では、説明を明瞭にするために、図５（ａ）を説明の対象とする。図５（ｃ）の説明は後述し、図３に戻る。

乗員、例えば運転手は、センタディスプレイ２ｂに表示された提示情報の画像において示された複数種類の運転行動から１つの運転行動を選択する場合、入力装置４に対して選択結果を入力する。例えば、乗員は、第１操作部４ａあるいは第２操作部４ｂを操作して１つの運転行動を選択する。また、センタディスプレイ２ｂがタッチパネルである場合、乗員は、センタディスプレイ２ｂに表示された提示情報の画像の中から、１つの運転行動の表示部分をタッチすることによって、１つの運転行動を選択する。さらに、ヘッドアップディスプレイ２ａに提示情報の画像が表示されている場合、乗員は、画像の中から、１つの運転行動の表示部分を選択するようなジェスチャーを実行すると、第３操作部４ｃはジェスチャーに応じた１つの運転行動を選択する。操作信号入力部５０には、入力装置４からの操作信号であって、かつ乗員によって選択された１つの運転行動を示す操作信号が入力される。このように操作信号入力部５０に操作信号が入力される場合は、「手動選択状態」と呼ばれる。

乗員は、センタディスプレイ２ｂに表示された提示情報の画像において示された複数種類の運転行動から１つの運転行動を選択しない場合、入力装置４に対して選択結果を入力しない。そのため、操作信号入力部５０には、提示行動を出力してから所定期間において、入力装置４からの操作信号が入力されない。操作信号入力部５０に操作信号が入力されない場合、処理部９２は、選択部９４に対して１つの運転行動の選択の実行を指示する。選択部９４は、処理部９２からの指示を受けつけた場合、提示情報に含まれた複数種類の運転行動のうちの１つの運転行動を選択する。ここでは、例えば、最も累積値の大きい運動行動が選択される。これは、提示情報に配置された複数種類の運転行動のうち、先頭の運転行動が選択されることに相当する。このように操作信号入力部５０に操作信号が入力されない場合は、「自動選択状態」と呼ばれる。

処理部９２は、自動選択状態の場合、選択した運転行動に対応した制御コマンドをコマンド出力部５５経由で自動運転制御装置３０に出力する。一方、処理部９２は、手動選択状態の場合、操作信号で示された運転行動に対応した制御コマンドをコマンド出力部５５経由で自動運転制御装置３０に出力する。図１の自動運転制御装置３０は、制御コマンドに対応した運転行動をもとに、車両１００の自動運転を制御する。

学習部７４は、自動選択状態の場合、選択部９４において選択した１つの運転行動に正の報酬「α」を付与する。一方、学習部７４は、手動選択状態の場合、操作信号において示された１つの運転行動に正の報酬「β」を付与する。ここで、自動選択状態の場合において付与する正の報酬「α」の値よりも、手動選択状態の場合において付与される正の報酬「β」の値を大きくする。例えば、前者が「＋０．５」とされ、後者が「＋０．７」とされる。学習部７４は、１つの運転行動に報酬を付与しながら強化学習を実行することによって運転行動モデル８０を更新する。強化学習については公知の技術が使用されればよいので、ここでは説明を省略するが、報酬が反映されるように、運転行動モデル８０におけるニューラルネットワークの重みが調節されることに相当する。

ここで、学習部７４は、手動選択状態の場合、提示情報に含まれた複数種類の運転行動のうち、操作信号において示された１つの運転行動以外の運転行動、つまり乗員によって選択されなかった運転行動に負の報酬を付与してもよい。その際、提示情報に含まれなかった運転行動に負の報酬が付与されなくてもよく、付与されてもよい。ここで、負の報酬は「−β」と示されるが、他の値であってもよい。学習部７４は、負の報酬も付与しながら強化学習を実行する。一方、自動選択状態の場合、学習部７４は、選択部９４において選択した１つの運転行動以外の運転行動に負の報酬を付与しない。

ここでは、学習部７４において付与される報酬について、図５（ｃ）を使用しながらさらに詳細に説明する。ここでは、前提として、図５（ａ）に示すような提示情報の画像が表示されているとする。図５（ｃ）のパターン「１」は、自動選択状態に相当する。乗員が運転行動を選択しなければ、選択部９４は運転行動Ｃを選択する。その結果、学習部７４は、運転行動Ｃに正の報酬「＋α」を付与する。一方、図５（ｃ）のパターン「２」から「４」は、手動選択状態に相当する。パターン「２」において、乗員が運転行動Ｃを選択した場合、学習部７４は、運転行動Ｃに正の報酬「＋β」を付与する。パターン「３」において、乗員が運転行動Ｅを選択した場合、学習部７４は、運転行動Ｅに正の報酬「＋β」を付与し、運転行動Ｃに負の報酬「−β」を付与する。パターン「４」において、乗員が運転行動Ｂを選択した場合、学習部７４は、運転行動Ｂに正の報酬「＋β」を付与し、運転行動Ｃ、Ｅに負の報酬「−β」を付与する。

以上の構成による運転支援装置４０の動作を説明する。図６は、制御部４１による処理手順を示すフローチャートである。推定部８２は、複数の運転行動を推定する（Ｓ１０）。生成部９０は、累積値が大きい順に所定の運転行動を選択する（Ｓ１２）。報知装置２は、提示情報を表示する（Ｓ１４）。操作信号入力部５０に操作信号が入力された場合（Ｓ１６のＹ）、学習部７４は、操作信号に示された運転行動に正の報酬「＋β」を付与し（Ｓ１８）、提示情報中の他の運転行動で操作信号に示された運転行動より累積地が大きい運転行動に負の報酬「−β」を付与する（Ｓ２０）。操作信号入力部５０に操作信号が入力されない場合（Ｓ１６のＮ）、選択部９４は、累積値が最大の運転行動を選択する（Ｓ２２）。学習部７４は、選択した運転行動に正の報酬「＋α」を付与する（Ｓ２４）。

本実施の形態によれば、操作信号が入力されない場合の報酬の値よりも、操作信号が入力された場合の報酬の値を大きくするので、乗員が積極的に選択したときの運転行動の信頼性を高くできる。また、乗員が積極的に選択したときの運転行動の信頼性が高くなるので、乗員の意図を反映するような運転行動を導出できる。また、乗員に選択された運転行動以外の運転行動に負の報酬を付与するので、乗員が選択しなかった運転行動の信頼度を低くできる。また、乗員に選択された１つの運転行動より信頼度が高いとシステムが推定していた運転行動に負の報酬を付与するので、システムが信頼度が高いと推定したが乗員が選択した運転行動の信頼性と、乗員が選択しなかった運転行動の信頼性との差を大きくできる。また、乗員が選択した運転行動の信頼性と、システムが信頼度が高いと推定したが乗員が選択しなかった運転行動の信頼性との差が大きくなるので、乗員の意志をさらに反映できる。

また、提示情報に含まれた一部の運転行動のうち、選択されなかった運転行動に負の報酬を付与するので、提示情報に含まれなかった運転行動に報酬を付与しなくできる。また、提示情報に含まれなかった運転行動に報酬が付与されないので、乗員の意図と関係なく信頼性が変化することを抑制できる。また、操作信号が入力されない場合の正の報酬の値よりも、操作信号入力された場合の正の報酬の値を大きくするので、乗員の意図を反映するような運転行動を実行できる。

（実施の形態２）
次に、実施の形態２を説明する。実施の形態２は、実施の形態１と同様に、提示情報の画像を表示するとともに、選択された運転行動に報酬を与えながら強化学習を実行する運転支援装置に関する。実施の形態１においては、自動選択状態であるか、手動選択状態であるかに応じて報酬の値を変えて、強化学習が実行される。一方、実施の形態２は、手動運転状態である場合を説明の対象とする。前述のごとく、提示情報には、推定された複数種類の運転行動のうち、所定数の運転行動が含まれる。乗員は、提示情報に含まれた運転行動を選択可能であるが、提示情報に含まれていない運転行動を選択できない。このような運転行動の信頼度は向上しないので、当該運転行動は推定されにくくなる。つまり、乗員は、そのような運転行動を意図的に除外していなくても除外されてしまうので、乗員の意図が反映されない。実施の形態２は、乗員の意図を反映させやすくなる提示情報の生成について説明する。実施の形態２に係る車両１００は図１、図２と同様のタイプであり、実施の形態２に係る制御部４１は図３と同様のタイプである。

図３の運転行動推定部７０は、実施の形態１と同様に、複数種類の運転行動と、各運転行動に対応した累積値とが含まれたヒストグラムを出力する。生成部９０は、ヒストグラムに含まれた複数種類の運転行動のそれぞれの累積値が大きい順に所定数の運転行動を選択する。生成部９０は、選択した運転行動が示された提示情報を生成する。この提示情報は実施の形態１と同様であるが、ここでは「第１提示情報」という。第１提示情報では、例えば、「５」の運転行動のうちから、累積値が大きい方から「３」の運転行動を含む。

一方、生成部９０は、所定の頻度、例えば１０回に１回の割合で、第１提示情報の代わりに、第２提示情報を生成する。第２提示情報では、第１提示情報に含めるべき所定数の運転行動の一部の代わりに、累積値の小さい運転行動が含められる。具体的に説明すると、所定数が「３」である場合、第１提示情報に含めるべき３つの運転行動は、累積値の大きさが１番目の運転行動、累積値の大きさが２番目の運動行動、累積値の大きさが３番目の運転行動である。生成部９０は、これらのうちの１つの運転行動、例えば、累積値の大きさが３番目の運転行動の代わりに、累積値の大きさが４番目の運転行動、あるいは累積値の大きさが５番目の運転行動を含めるように第２提示情報を生成する。例えば、累積値の大きさが４番目の運転行動と、累積値の大きさが５番目の運転行動は、第２提示情報の生成ごとに所定の割合で交互に含められればよい。生成部９０は、生成した第１提示情報、あるいは第２提示情報を処理部９２に出力する。

処理部９２は、図１の画像・音声出力部５１に第１提示情報あるいは第２提示情報を出力し、画像・音声出力部５１は、図２のヘッドアップディスプレイ２ａあるいはセンタディスプレイ２ｂに第１提示情報あるいは第２提示情報を出力する。ヘッドアップディスプレイ２ａあるいはセンタディスプレイ２ｂは、第１提示情報あるいは第２提示情報の画像を表示する。

図７（ａ）−（ｅ）は、実施の形態２に係る表示制御部７２の処理概要を示す。図７（ａ）は、センタディスプレイ２ｂにおいて表示される第１提示情報の画像を示す。これは、図５（ａ）と同一である。図７（ｂ）は、センタディスプレイ２ｂにおいて表示される第２提示情報の画像を示す。第１提示情報との比較を容易にするために、この第２提示情報の画像は図４をもとに生成されている。累積値が大きい順番に、運転行動Ｃ、運転行動Ｅが上から下に並んで配置される。また、累積値が最も小さい運転行動Ａが、最も下に配置されるとともに、最も小さい文字のサイズにされる。図７（ｃ）−（ｅ）の説明は後述し、図３に戻る。

乗員は、センタディスプレイ２ｂに表示された第１提示情報あるいは第２提示情報の画像において示された複数種類の運転行動から１つの運転行動を選択しない場合、入力装置４に対して選択結果を入力しない。これが前述の自動選択状態であり、操作信号入力部５０には入力装置４からの操作信号が入力されない。その場合、選択部９４は、第１提示情報あるいは第２提示情報に含まれた複数種類の運転行動のうちの１つの運転行動を選択する。具体的に説明すると、選択部９４は、第１提示情報あるいは第２提示情報に含まれた所定数の運転行動のうち、予め定められた順番、例えば、画像において最も上に配置された１つの運転行動を選択する。このような選択部９４の処理は実施の形態１と同様である。このような選択部９４の動作を考慮すると、生成部９０は、第２提示情報を生成する際、選択部９４において選択される順番以外の順番に、累積値の小さい運転行動を配置させるといえる。図７（ｂ）においては、累積値の最も小さい運転行動が最も下に配置される。

一方、乗員は、センタディスプレイ２ｂに表示された第１提示情報あるいは第２提示情報の画像において示された複数種類の運転行動から１つの運転行動を選択する場合、入力装置４に対して選択結果を入力する。これが前述の手動選択状態であり、操作信号入力部５０には入力装置４からの操作信号が入力される。なお、第１提示情報が表示された場合の操作信号を「第１操作信号」といい、第２提示情報が表示された場合の操作信号を「第２操作信号」ということもある。これに続いて、処理部９２は、制御コマンドをコマンド出力部５５を経由で自動運転制御装置３０に出力するが、実施の形態１と同様であるので、ここでは説明を省略する。

学習部７４は、自動選択状態において、第１提示情報が出力された場合であるか、あるいは第２提示情報が出力された場合であるかにかかわらず、実施の形態１と同様の処理を実行する。また、学習部７４は、手動選択状態において、第１操作信号が入力された場合、乗員に選択された１つの運転行動に報酬を付与する。この報酬の付与も実施の形態１と同様であり、第１操作信号において示された１つの運転行動に正の報酬が付与される。しかしながら、学習部７４は、手動選択状態において、第１提示情報に含まれた複数種類の運転行動のうち、選択されなかった運転行動に負の報酬を付与しない。

学習部７４は、手動選択状態において、第２操作信号が入力された場合、乗員に選択された１つの運転行動に報酬を付与する。この報酬の付与も実施の形態１と同様であり、第２操作信号において示された１つの運転行動に正の報酬が付与される。一方、学習部７４は、手動選択状態において、第２提示情報に含まれた複数種類の運転行動のうち、選択されなかった運転行動に負の報酬を付与する。ここで、負の報酬は「−β」と示されるが、他の値であってもよい。

ここでは、学習部７４において付与される報酬について、図７（ｃ）−（ｄ）を使用しながらさらに詳細に説明する。ここでは、手動選択状態のみを説明の対象にする。図７（ｃ）の前提として、図７（ａ）に示すような第１提示情報の画像が表示されているとする。パターン「１」において、乗員が運転行動Ｃを選択した場合、学習部７４は運転行動Ｃに正の報酬「＋β」を付与する。パターン「２」において、乗員が運転行動Ｅを選択した場合、学習部７４は運転行動Ｅに正の報酬「＋β」を付与する。パターン「３」において、乗員が運転行動Ｂを選択した場合、学習部７４は運転行動Ｂに正の報酬「＋β」を付与する。

また、図７（ｄ）の前提として、図７（ｂ）に示すような第２提示情報の画像が表示されているとする。パターン「４」において、乗員が運転行動Ｃを選択した場合、学習部７４は、運転行動Ｃに正の報酬「＋β」を付与する。パターン「５」において、乗員が運転行動Ｅを選択した場合、学習部７４は、運転行動Ｅに正の報酬「＋β」を付与し、運転行動Ｃ、Ａに負の報酬「−β」を付与する。パターン「６」において、乗員が運転行動Ａを選択した場合、学習部７４は、運転行動Ａに正の報酬「＋β」を付与し、運転行動Ｃ、Ｅに負の報酬「−β」を付与する。図３に戻る。

これまでの生成部９０は、第２提示情報を生成する際、選択部９４において選択される順番以外の順番に、累積値の小さい運転行動を配置させている。なお、選択部９４において選択される順番の一例は、画像において最も上である。しかしながら、生成部９０は、第２提示情報を生成する際、選択部９４において選択される順番に、累積値の小さい運転行動を配置させてもよい。図７（ｅ）は、このような場合にセンタディスプレイ２ｂにおいて表示される第２提示情報の画像を示す。これまでとの比較を容易にするために、この第２提示情報の画像は図４をもとに生成されている。累積値が最も小さい運転行動Ａが最も上に配置されるとともに、最も大きい文字のサイズにされる。また、これの下に、累積値が大きい順番に、運転行動Ｃ、運転行動Ｅが上から下に並んで配置される。

以上の構成による運転支援装置４０の動作を説明する。図８は、実施の形態２に係る制御部４１による生成手順を示すフローチャートである。生成部９０はｉ＝１と設定する（Ｓ１００）。ｉ＝１０でなければ（Ｓ１０２のＮ）、生成部９０は第１提示情報を生成する（Ｓ１０４）。生成部９０はｉをインクリメントする（Ｓ１０６）。ｉ＝１０であれば（Ｓ１０２のＹ）、生成部９０は第２提示情報を生成する（Ｓ１０８）。生成部９０はｉ＝１と設定する（Ｓ１１０）。終了でなければ（Ｓ１１２のＮ）、ステップ１０２に戻る。終了でなければ（Ｓ１１２のＹ）、終了する。

図９は、実施の形態３に係る制御部４１による生成手順を示すフローチャートである。操作信号入力部５０に第１操作信号あるいは第２操作信号が入力される（Ｓ１５０）。第１操作信号が入力された場合（Ｓ１５２のＹ）、学習部７４は、選択された運転行動に正の報酬「＋β」を付与する（Ｓ１５４）。第１提示情報が入力されていない場合（Ｓ１５２のＮ）、学習部７４は、選択された運転行動に正の報酬「＋β」を付与し（Ｓ１５６）、他の運転行動のうち選択された運転行動より高い信頼度でシステムが推定した運転行動に負の報酬「−β」を付与する（Ｓ１５８）。

本実施の形態によれば、信頼度の低い運転行動を含めた第２提示情報を所定の頻度で出力するので、信頼度の低い運転行動の選択機会を増加できる。また、信頼度の低い運転行動の選択機会が増加するので、当該運転行動が乗員の意図で選択されなかったか否かを区別できる。また、当該運転行動が乗員の意図で選択されなかったか否かが区別されるので、乗員の意図を認識できる。また、乗員の意図が認識されるので、乗員の意図を反映するような運転行動を導出できる。また、選択部において選択される運転行動として、信頼度の低い運転行動を配置させるので、当該運転行動を乗員が選択するか否かによって、乗員の積極的な意志を認識できる。また、選択部において選択される運転行動以外として、信頼度の低い運転行動を配置させるので、信頼度の高い運転行動を選択部に選択させることができる。また、信頼度の低い運転行動を含めた第２提示情報を所定の頻度で出力するので、乗員の意図を反映するような運転行動を実行できる。

以上、本発明に係る実施の形態について図面を参照して詳述してきたが、上述した装置や各処理部の機能は、コンピュータプログラムにより実現されうる。上述した機能をプログラムにより実現するコンピュータは、キーボードやマウス、タッチパッドなどの入力装置、ディスプレイやスピーカなどの出力装置、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＲＯＭ、ＲＡＭ、ハードディスク装置やＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などの記憶装置、ＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＵＳＢメモリなどの記録媒体から情報を読み取る読取装置、ネットワークを介して通信を行うネットワークカードなどを備え、各部はバスにより接続される。

また、読取装置は、上記プログラムを記録した記録媒体からそのプログラムを読み取り、記憶装置に記憶させる。あるいは、ネットワークカードが、ネットワークに接続されたサーバ装置と通信を行い、サーバ装置からダウンロードした上記各装置の機能を実現するためのプログラムを記憶装置に記憶させる。また、ＣＰＵが、記憶装置に記憶されたプログラムをＲＡＭにコピーし、そのプログラムに含まれる命令をＲＡＭから順次読み出して実行することにより、上記各装置の機能が実現される。

本発明の一態様の概要は、次の通りである。
（項目１−１）
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、
前記生成部において生成した提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする運転支援装置。

この態様によると、操作信号が入力されない場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくするので、乗員の意図を反映するような運転行動を導出できる。

（項目１−２）
前記学習部は、前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動以外の運転行動に負の重み付けを実行しながら学習を実行することを特徴とする項目１−１に記載の運転支援装置。
この場合、乗員に選択された１つの運転行動以外の運転行動に負の重み付けを実行するので、乗員が選択しなかった運転行動の信頼度を低くできる。

（項目１−３）
前記生成部は、複数種類の運転行動のうち、一部の運転行動が示された提示情報を生成し、
前記学習部は、前記操作信号入力部に操作信号が入力された場合、前記生成部において生成した提示情報に含まれた一部の運転行動のうち、当該操作信号において示された１つの運転行動以外の運転行動に負の重み付けを実行することを特徴とする項目１−２に記載の運転支援装置。
この場合、提示情報に含まれた一部の運転行動のうち、選択されなかった運転行動に負の重み付けを実行するので、乗員が選択しなかった運転行動の信頼度を低くできる。

（項目１−４）
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、
前記生成部において生成した提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動をもとに車両の自動運転を制御し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動をもとに車両の自動運転を制御する自動運転制御部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする自動運転制御装置。

この態様によると、操作信号が入力されない場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくするので、乗員の意図を反映するような運転行動を実行できる。

（項目１−５）
運転支援装置を備える車両であって、
前記運転支援装置は、
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、
前記生成部において生成した提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする車両。

（項目１−６）
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成するステップと、
生成した提示情報を報知装置に出力するステップと、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力されるステップと、
操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択するステップと、
操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、
操作信号が未入力である場合、前記選択するステップにおいて選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップとを備え、
操作信号が未入力である場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくすることを特徴とする運転支援方法。

（項目１−７）
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成するステップと、
生成した提示情報を報知装置に出力するステップと、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力されるステップと、
操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択するステップと、
操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、
操作信号が未入力である場合、前記選択するステップにおいて選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップとを備え、
操作信号が未入力である場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくすることをコンピュータに実行させるためのプログラム。

（項目１−８）
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、前記生成部において生成した提示情報を出力する提示情報出力部とを備える運転支援装置と、
前記運転支援装置から出力された提示情報を報知する報知装置とを備え、
前記運転支援装置は、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とをさらに備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする提示システム。

（項目２−１）
運転行動モデルを用いた推定結果である複数種類の運転行動のそれぞれの信頼度が高い順に所定数の運転行動を選択するとともに、選択した所定数の運転行動が示された第１提示情報を生成する生成部と、
前記生成部において生成した第１提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された第１提示情報に対して乗員が選択した１つの運転行動を示す第１操作信号が入力される操作信号入力部と、
前記操作信号入力部に入力された第１操作信号において示された１つの運転行動に正の重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記生成部は、第１提示情報に含めるべき所定数の運転行動の一部の代わりに、信頼度の低い運転行動を含めた第２提示情報を、所定の頻度で第１提示情報の代わりに生成し、
前記提示情報出力部は、前記生成部において生成した第２提示情報を前記報知装置に出力し、
前記操作信号入力部には、前記報知装置から報知された第２提示情報に対して乗員が選択した１つの運転行動を示す第２操作信号が入力され、
前記学習部は、前記操作信号入力部に入力された第２操作信号において示された１つの運転行動に正の重み付けを実行するとともに、第２提示情報に含まれた他の運転行動に負の重み付けを実行しながら学習を実行することによって運転行動モデルを更新することを特徴とする運転支援装置。

この態様によると、信頼度の低い運転行動を含めた第２提示情報を所定の頻度で出力するので、乗員の意図を反映するような運転行動を導出できる。

（項目２−２）
前記操作信号入力部に第１操作信号が未入力である場合、第１提示情報に含まれた１つの運転行動を選択し、前記操作信号入力部に第２操作信号が未入力である場合、第２提示情報に含まれた１つの運転行動を選択する選択部をさらに備え、
前記選択部は、第１提示情報あるいは第２提示情報に含まれた所定数の運転行動のうち、予め定められた順番に配置された１つの運転行動を選択し、
前記生成部は、第２提示情報を生成する際、前記予め定められた順番に、信頼度の低い運転行動を配置させることを特徴とする項目２−１に記載の運転支援装置。
この場合、選択部において選択される運転行動として、信頼度の低い運転行動を配置させるので、乗員の積極的な意志を認識できる。

（項目２−３）
前記操作信号入力部に第１操作信号が未入力である場合、第１提示情報に含まれた１つの運転行動を選択し、前記操作信号入力部に第２操作信号が未入力である場合、第２提示情報に含まれた１つの運転行動を選択する選択部をさらに備え、
前記選択部は、第１提示情報あるいは第２提示情報に含まれた所定数の運転行動のうち、予め定められた順番に配置された１つの運転行動を選択し、
前記生成部は、第２提示情報を生成する際、前記予め定められた順番以外の順番に、信頼度の低い運転行動を配置させることを特徴とする項目２−１に記載の運転支援装置。
この場合、選択部において選択される運転行動以外として、信頼度の低い運転行動を配置させるので、信頼度の高い運転行動を選択部に選択させることができる。

（項目２−４）
運転行動モデルを用いた推定結果である複数種類の運転行動のそれぞれの信頼度が高い順に所定数の運転行動を選択するとともに、選択した所定数の運転行動が示された第１提示情報を生成する生成部と、
前記生成部において生成した第１提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された第１提示情報に対して乗員が選択した１つの運転行動を示す第１操作信号が入力される操作信号入力部と、
前記操作信号入力部に入力された第１操作信号において示された１つの運転行動に正の重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部と、
１つの運転行動をもとに、車両の自動運転を制御する自動運転制御部とを備え、
前記生成部は、第１提示情報に含めるべき所定数の運転行動の一部の代わりに、信頼度の低い運転行動を含めた第２提示情報を、所定の頻度で第１提示情報の代わりに生成し、
前記提示情報出力部は、前記生成部において生成した第２提示情報を前記報知装置に出力し、
前記操作信号入力部には、前記報知装置から報知された第２提示情報に対して乗員が選択した１つの運転行動を示す第２操作信号が入力され、
前記学習部は、前記操作信号入力部に入力された第２操作信号において示された１つの運転行動に正の重み付けを実行するとともに、第２提示情報に含まれた他の運転行動に負の重み付けを実行しながら学習を実行することによって運転行動モデルを更新することを特徴とする自動運転制御装置。

この態様によると、信頼度の低い運転行動を含めた第２提示情報を所定の頻度で出力するので、乗員の意図を反映するような運転行動を実行できる。

（項目２−５）
運転支援装置を備える車両であって、
前記運転支援装置は、
運転行動モデルを用いた推定結果である複数種類の運転行動のそれぞれの信頼度が高い順に所定数の運転行動を選択するとともに、選択した所定数の運転行動が示された第１提示情報を生成する生成部と、
前記生成部において生成した第１提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された第１提示情報に対して乗員が選択した１つの運転行動を示す第１操作信号が入力される操作信号入力部と、
前記操作信号入力部に入力された第１操作信号において示された１つの運転行動に正の重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記生成部は、第１提示情報に含めるべき所定数の運転行動の一部の代わりに、信頼度の低い運転行動を含めた第２提示情報を、所定の頻度で第１提示情報の代わりに生成し、
前記提示情報出力部は、前記生成部において生成した第２提示情報を前記報知装置に出力し、
前記操作信号入力部には、前記報知装置から報知された第２提示情報に対して乗員が選択した１つの運転行動を示す第２操作信号が入力され、
前記学習部は、前記操作信号入力部に入力された第２操作信号において示された１つの運転行動に正の重み付けを実行するとともに、第２提示情報に含まれた他の運転行動に負の重み付けを実行しながら学習を実行することによって運転行動モデルを更新することを特徴とする車両。

（項目２−６）
運転行動モデルを用いた推定結果である複数種類の運転行動のそれぞれの信頼度が高い順に所定数の運転行動を選択するとともに、選択した所定数の運転行動が示された第１提示情報を生成するステップと、
生成した第１提示情報を報知装置に出力するステップと、
前記報知装置から報知された第１提示情報に対して乗員が選択した１つの運転行動を示す第１操作信号が入力されるステップと、
入力された第１操作信号において示された１つの運転行動に正の重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、
第１提示情報に含めるべき所定数の運転行動の一部の代わりに、信頼度の低い運転行動を含めた第２提示情報を、所定の頻度で第１提示情報の代わりに生成するステップと、
生成した第２提示情報を前記報知装置に出力するステップと、
前記報知装置から報知された第２提示情報に対して乗員が選択した１つの運転行動を示す第２操作信号が入力されるステップと、
入力された第２操作信号において示された１つの運転行動に正の重み付けを実行するとともに、第２提示情報に含まれた他の運転行動に負の重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、
を備えることを特徴とする運転支援方法。

（項目２−７）
運転行動モデルを用いた推定結果である複数種類の運転行動のそれぞれの信頼度が高い順に所定数の運転行動を選択するとともに、選択した所定数の運転行動が示された第１提示情報を生成するステップと、
生成した第１提示情報を報知装置に出力するステップと、
前記報知装置から報知された第１提示情報に対して乗員が選択した１つの運転行動を示す第１操作信号が入力されるステップと、
入力された第１操作信号において示された１つの運転行動に正の重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、
第１提示情報に含めるべき所定数の運転行動の一部の代わりに、信頼度の低い運転行動を含めた第２提示情報を、所定の頻度で第１提示情報の代わりに生成するステップと、
生成した第２提示情報を前記報知装置に出力するステップと、
前記報知装置から報知された第２提示情報に対して乗員が選択した１つの運転行動を示す第２操作信号が入力されるステップと、
入力された第２操作信号において示された１つの運転行動に正の重み付けを実行するとともに、第２提示情報に含まれた他の運転行動に負の重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップとをコンピュータに実行させるためのプログラム。

（項目２−８）
運転行動モデルを用いた推定結果である複数種類の運転行動のそれぞれの信頼度が高い順に所定数の運転行動を選択するとともに、選択した所定数の運転行動が示された第１提示情報を生成する生成部と、前記生成部において生成した第１提示情報を出力する提示情報出力部とを備える運転支援装置と、
前記運転支援装置から出力された提示情報を報知する報知装置とを備え、
前記運転支援装置は、
前記報知装置から報知された第１提示情報に対して乗員が選択した１つの運転行動を示す第１操作信号が入力される操作信号入力部と、
前記操作信号入力部に入力された第１操作信号において示された１つの運転行動に正の重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とをさらに備え、
前記生成部は、第１提示情報に含めるべき所定数の運転行動の一部の代わりに、信頼度の低い運転行動を含めた第２提示情報を、所定の頻度で第１提示情報の代わりに生成し、
前記提示情報出力部は、前記生成部において生成した第２提示情報を前記報知装置に出力し、
前記操作信号入力部には、前記報知装置から報知された第２提示情報に対して乗員が選択した１つの運転行動を示す第２操作信号が入力され、
前記学習部は、前記操作信号入力部に入力された第２操作信号において示された１つの運転行動に正の重み付けを実行するとともに、第２提示情報に含まれた他の運転行動に負の重み付けを実行しながら学習を実行することによって運転行動モデルを更新することを特徴とする提示システム。

以上、本発明を実施の形態をもとに説明した。これらの実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施の形態１、２において、運転行動推定部７０は運転支援装置４０の制御部４１に含まれる。しかしながらこれに限らず例えば、運転行動推定部７０は、自動運転制御装置３０の制御部３１に含まれてもよい。本変形例によれば、構成の自由度を向上できる。

実施の形態１、２において、運転行動モデル８０は、運転行動学習部３１０において生成され、運転行動推定部７０に送信されている。しかしながらこれに限らず例えば、運転行動モデル８０は運転行動推定部７０にプリインストールされていてもよい。本変形例によれば、構成を簡易にできる。

実施の形態１、２において、運転行動学習部３１０は、運転支援装置４０に含まれてもよい。

実施の形態１、２において、運転行動推定部７０は、推定として、ニューラルネットワークを使用する深層学習により生成した運転行動モデルを用いている。しかしながらこれに限らず例えば、運転行動推定部７０は、深層学習以外の機械学習を用いた運転行動モデルを用いてもよい。深層学習以外の機械学習の一例は、ＳＶＭである。さらに、運転行動推定部７０は、統計処理により生成したフィルタを用いてもよい。フィルタの一例は、協調フィルタリングである。協調フィルタリングでは、各運転行動に対応した運転履歴あるいは走行履歴と、テストデータとの相関値を算出することによって、相関値の高い運転行動が選択される。相関値によって確からしさが示されているので、相関値は尤度ともいえ、信頼度に相当する。学習部７４は、信頼度として相関値に対する報酬を付与する。本変形例によれば、構成の自由度を向上できる。

実施の形態１において、学習部７４は、手動選択状態である場合、選択されなかった運転行動に対して負の報酬を付与している。しかしながらこれに限らず例えば、学習部７４は、手動選択状態である場合、選択されなかった運転行動に対して負の報酬を付与しなくてもよい。本変形例によれば、選択された運転行動の信頼度と、選択されなかった運転行動の信頼度との差の増大を抑制できる。

実施の形態１、２の組合せも有効である。本変形例によれば、実施の形態１、２の組合せによる効果を得ることができる。

２報知装置、２ａヘッドアップディスプレイ、２ｂセンタディスプレイ、４入力装置、４ａ第１操作部、４ｂ第２操作部、４ｃ第３操作部、６スピーカ、８無線装置、１０運転操作部、１１ステアリング、１２ブレーキペダル、１３アクセルペダル、１４ウィンカスイッチ、２０検出部、２１位置情報取得部、２２センサ、２３速度情報取得部、２４地図情報取得部、３０自動運転制御装置、３１制御部、３２記憶部、３３Ｉ／Ｏ部、４０運転支援装置、４１制御部、４２記憶部、４３Ｉ／Ｏ部、５０操作信号入力部、５１画像・音声出力部、５２検出情報入力部、５３コマンドＩＦ、５４行動情報入力部、５５コマンド出力部、５６通信ＩＦ、７０運転行動推定部、７２表示制御部、７４学習部、８０運転行動モデル、８２推定部、８４ヒストグラム生成部、９０生成部、９２処理部、９４選択部、１００車両、３００サーバ、３０２ネットワーク、３１０運転行動学習部、５００運転支援システム。

Claims

運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、
前記生成部において生成した提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする運転支援装置。
前記学習部は、前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動以外の運転行動に負の重み付けを実行しながら学習を実行することを特徴とする請求項１に記載の運転支援装置。
前記生成部は、複数種類の運転行動のうち、一部の運転行動が示された提示情報を生成し、
前記学習部は、前記操作信号入力部に操作信号が入力された場合、前記生成部において生成した提示情報に含まれた一部の運転行動のうち、当該操作信号において示された１つの運転行動以外の運転行動に負の重み付けを実行することを特徴とする請求項２に記載の運転支援装置。
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、
前記生成部において生成した提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動をもとに車両の自動運転を制御し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動をもとに車両の自動運転を制御する自動運転制御部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする自動運転制御装置。
運転支援装置を備える車両であって、
前記運転支援装置は、
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、
前記生成部において生成した提示情報を報知装置に出力する提示情報出力部と、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とを備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする車両。
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成するステップと、
生成した提示情報を報知装置に出力するステップと、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力されるステップと、
操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択するステップと、
操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、
操作信号が未入力である場合、前記選択するステップにおいて選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップとを備え、
操作信号が未入力である場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくすることを特徴とする運転支援方法。
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成するステップと、
生成した提示情報を報知装置に出力するステップと、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力されるステップと、
操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択するステップと、
操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップと、
操作信号が未入力である場合、前記選択するステップにおいて選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新するステップとを備え、
操作信号が未入力である場合の重み付けの値よりも、操作信号が入力された場合の重み付けの値を大きくすることをコンピュータに実行させるためのプログラム。
運転行動モデルを用いた推定結果である複数種類の運転行動が示された提示情報を生成する生成部と、前記生成部において生成した提示情報を出力する提示情報出力部とを備える運転支援装置と、
前記運転支援装置から出力された提示情報を報知する報知装置とを備え、
前記運転支援装置は、
前記報知装置から報知された提示情報に対して乗員が選択した１つの運転行動を示す操作信号が入力される操作信号入力部と、
前記操作信号入力部に操作信号が未入力である場合、複数種類の運転行動のうちの１つの運転行動を選択する選択部と、
前記操作信号入力部に操作信号が入力された場合、当該操作信号において示された１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新し、前記操作信号入力部に操作信号が未入力である場合、前記選択部において選択した１つの運転行動に重み付けを実行しながら学習を実行することによって運転行動モデルを更新する学習部とをさらに備え、
前記学習部は、前記操作信号入力部に操作信号が未入力である場合の重み付けの値よりも、前記操作信号入力部に操作信号が入力された場合の重み付けの値を大きくすることを特徴とする提示システム。