公立大学法人大阪府立大学

一般物体認識分野「認識精度 世界一」を奪還! 府大生が開発したニューラルネットワーク

更新日:2017年10月19日

開発者の山田 良博さん

大阪府立大学は2016年12月9日に、プレスリリース「一般物体認識分野で、府大生が世界一の認識精度を持つニューラルネットワークを開発」を発表しました。

この分野は世界中で熾烈な研究開発競争が繰り広げられており、2017年5月、新たに提案されたニューラルネットワークによって本学の記録は抜かれてしまいました。しかしこの度、前回と同じ開発者である工学研究科 電気・情報系専攻 知能メディア処理研究室の大学院生、山田 良博さん(博士後期課程1年)が、同研究室の岩村 雅一准教授、黄瀬 浩一教授と共に新たに開発したニューラルネットワークによって従来手法よりも飛びぬけた改善効果が見られ、これまで世界一だった手法に約3%もの大差をつけ、再び世界一の認識精度を達成しました。(図1参照)

図1:一般物体認識の認識率の推移(CIFAR-100データセットを用いた場合)

本研究は、JST CREST研究領域「人間と調和した創造的協働を実現する知的情報処理システムの構築」の研究課題「経験サプリメントによる行動変容と創造的協働」とAIPチャレンジ「確率的な正則化を用いた高精度な物体認識」の成果であり、2017年10月12日に熊本大学で開催された電子情報通信学会 パターン認識・メディア理解(PRMU)研究会で発表されました。また、英語版の記事を11月に公開する予定です。

背景

一般物体認識は、「飛行機」や「自動車」、「鳥」、「猫」などの多様な物体を認識(分類)するタスク(処理の実行単位)のことです。近年は、深層学習(ディープラーニング)で注目されているニューラルネットワークを用いた手法が主流となっており、図1が示すように、主なものだけで過去約2年間に11回も記録が塗り替えられる熾烈な研究開発競争が繰り広げられています。

また最近では、この一般物体認識手法を「画像からの物体切り出し」や「画像の領域分割」など、画像に関連する様々なタスクの「エンジン」として使うことが増えています。これらのタスクでは、手法に用いる「エンジン」を性能の良いものに置き換えるだけで、手法を高性能にできることが知られています。そのため、認識性能の高い一般物体認識手法の提案は、一般物体認識のタスクに限らず、画像に関連する様々なタスクへの大きな波及効果が期待できます。

前回、2016年12月に提案して世界一の認識精度を達成した手法は、2017年5月にXavier氏が提案したShake-Shakeという手法によって、その座をいったん奪われました。

Xavier氏の研究は、「学習を適度に妨害する」ことによって、より高い性能を実現できることを示した興味深いものでしたが、欠点もありました。それは、この手法が比較的浅いネットワークでしか用いることができないというものです。

図2に示すように、最近提案された一般物体認識手法は、深い構造を持つネットワーク(Deep)と広い構造を持つネットワーク(Wide)に大別できます。これらを比較すると、深い構造を持つネットワークの方が、メモリ使用量に直結するネットワークのパラメータ数が比較的小さくて済む上に認識性能が高いという有利な結果が出ていました。しかし、Xavier氏の手法は広い構造を持つネットワークにしか適用できませんでした。

図2:深い構造を持つネットワーク(Deep)と広い構造を持つネットワーク(Wide)の性能比較(CIFAR-100データセットを用いた場合)

そこで大阪府立大学では、Xavier氏が提案した「学習を適度に妨害する」学習法を、深い構造を持つネットワークに適用できる形で実現しました。また、その過程で、学習が安定する工夫も導入しています。

これを前回我々が提案して世界一の認識精度を達成した手法に適用することで、従来手法に比べて認識率を大幅に向上でき、再び世界一の認識精度を達成しました。

従来世界一だった手法と比べ、その認識率の差は約3%上回り、88%の認識精度を誇る結果となります。

関連情報

お問い合わせ

大阪府立大学大学院 工学研究科

准教授 岩村 雅一

Tel 072-254-9277 Eメール masa[at]cs.osakafu-u.ac.jp[at]の部分を@と変えてください。