Scene Text Eraser を読んだのでメモ

情景内文字のテキスト消去に関して興味があるのでメモ

論文詳細

T. Nakamura, A. Zhu, K. Yanai, and S. Uchida. Scene text eraser. In The 14th International Conference on Document Analysis and Recognition, pages 2–45, 2017.

どのような論文か?

情景内画像含まれる個人的な情報を含む住所や電話番号などのテキストを,テキスト行検出を用いないCNNベース手法で消去する研究.
テキスト消去後の文字検出の精度(Recall・Precision・F-Score)が大幅に低下した.

この論文のすごいと感じたところ

情景内画像に含まれる個人的な情報(住所や電話番号)は,悪用されることも多いので消去することが求められている.
通常テキストの消去では,テキスト行の検出 → 消去という二つのステップで消去をおこなう必要がある.

コンピュータビジョンにおける情景内画像に対するテキスト行検出の処理では,CCA(connected component analysis) や sliding windowを用いた手法が用いられてきた*1,*2,*3,*4

しかし,*5で定義されるように古典的な手法ではうまくいかないことも多く,まだまだ発展途上と言える.さらに,ガウシアンブラーなどを用いたぼかし処理などは,精度が特定のストローク・フォントに依存してしまうことから用いることが難しい.

この研究では行検出の処理をおこなわずに,入力画像(情景画像)から文字を消去したInpating画像を生成するCNNベースの手法を提案している.

DNNの構成

構成は,四層のConvolution層とDeconvolution層で構成されている.

f:id:dr_takuya:20181015140512p:plain

Convolution層は画像の特徴を掴むために,Deconvolution層は画像を復元させるために用いられている.
この研究の肝は,Skip Connection*6と呼ばれる層の計算をサボるために使われている技術を転用していることである.

ConvolutionとDeconvolutionの計算を線形で独立におこなってしまうと,Covolutionでは画像の縮小,Deconvolutionでは画像の膨張を繰り返し,画像の品質が劣化してしまう問題がある.

Skip Connectionでは,画像の縮小を行う前に特徴マップにオブジェクトの位置情報などの情報を足し合わせ,Deconvolution層でその情報を復元することにより,画像に品質を劣化させずにシーンテキストの消去をおこなうことができる(下図).

f:id:dr_takuya:20181015144700p:plain

CNNの学習では,元画像とInpating mask(文字領域を白,それ以外を黒で塗りつぶした画像)を用いて学習画像を生成している.

結果として,文字領域だけは削除され,文字領域が残される結果になった.f:id:dr_takuya:20181015142312p:plain

さらに,定量的な評価としてSSD*7を用いて元画像と文字領域を削除した画像で検出精度を検証している.

f:id:dr_takuya:20181015142730p:plain

F-Score自体が70%程度ほど低下しており,消去後の画像は検出するのが難しいと言える.

今後の課題として,Data Augumentationや精度向上があげられるものの,単純な構造である一定の性能を出すことができていて,深層学習がドンピシャでハマった例といえる.

*1:W. Huang, Y. Qiao, and X. Tang, ”Robust scene text detection with convolution neural network induced mser trees,” in European Conference on Computer Vision. Springer, 2014, pp. 497-511

*2:B. Epshtein, E. Ofek, and Y. Wexler, ”Detecting text in natural scenes with stroke width transform,” in Computer Vision and Pattern Recogni- tion (CVPR), 2010 IEEE Conference on. IEEE, 2010, pp. 2963-2970.

*3:T. Wang, D. J. Wu, A. Coates, and A. Y. Ng, ”End-to-end text recognition with convolutional neural networks,” in Pattern Recognition (ICPR), 2012 21st International Conference on. IEEE, 2012, pp. 3304- 3308.

*4:L. Neumann and J. Matas, ”Scene text localization and recognition with oriented stroke detection,” in Proceedings of the IEEE International Conference on Computer Vision, 2013, pp. 97-104.

*5:J.Johnson,A.Alahi,andL.Fei-Fei,”Perceptual losses for realtime style transfer and super-resolution,” in European Conference on Computer Vision. Springer, 2016, pp. 694-711.

*6:J. Long, E. Shelhamer, and T. Darrell, ”Fully convolutional networks for semantic segmentation,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, pp. 3431-3440.

*7:W. Liu, D. Anguelov, D. Erhan, C. Szegedy, S. Reed, C.-Y. Fu, and A. C. Berg, ”Ssd: Single shot multibox detector,” in European Conference on Computer Vision. Springer, 2016, pp. 21-37.