Aoki, Yoshimitsu



Faculty of Science and Technology, Department of Electronics and Electrical Engineering (Yagami)



Related Websites



External Links

Profile Summary 【 Display / hide

  • ・1999年04月-2001年03月 早稲田大学理工学部 応用物理学科助手  橋本周司教授の研究室において、顔画像認識・合成、工業用精密画像計測、  ヒューマノイドロボットの視覚システムに関する研究に従事. ・2002年04月-2005年03月 芝浦工業大学工学部情報工学科 専任講師(青木研究室発足)  2005年04月-2008年3月 芝浦工業大学工学部情報工学科 准教授  顔形状・動作の3次元画像解析技術の医学・歯学応用  衛星画像他リモートセンシングデータの統合活用に関する研究  道路交通画像システム,高精度画像計測システムに関する研究等に従事.  ※芝浦工業大学にて、7年間で約90名の学生の研究指導を担当 ・2008年04月-現在 慶應義塾大学理工学部電子工学科 准教授  人物を対象とした画像計測・認識技術、及び応用システムに関する研究.  応用先として,セキュリティ,マーケティング,医療・福祉,美容,インターフェース,エンターテイメント,自動車,等を視野に入れ,幅広い産業応用を目指す.  人の認知機構や感性を考慮したメディア理解技術とその応用,新しい視覚センサ,ロバスト画像特徴量に関する研究等に従事. ・2013年2月-現在 株式会社イデアクエスト 取締役兼任  慶應理工発画像センシング技術の医療分野での実用化を目指している.

Career 【 Display / hide

  • 1999.04

    早稲田大学, 理工学部 , 助手

  • 2002.04

    芝浦工業大学 , 工学部 情報工学科, 専任講師

  • 2005.04

    芝浦工業大学, 工学部 情報工学科, 助教授(2007より准教授)

  • 2008.04

    慶應義塾大学, 理工学部, 准教授

  • 2013.02

    株式会社イデアクエスト, 取締役

display all >>

Academic Background 【 Display / hide

  • 1996.03

    Waseda University, Faculty of Science and Engineering, 応用物理学科

    University, Graduated

  • 1998.03

    Waseda University, Graduate School, Division of Science and Engineering, 物理学及応用物理学専攻

    Graduate School, Completed, Master's course

  • 2001.02

    Waseda University, Graduate School, Division of Science and Engineering, 物理学及応用物理学専攻

    Graduate School, Completed, Doctoral course

Academic Degrees 【 Display / hide

  • 博士(工学), Waseda University, Coursework, 2001.02


Research Areas 【 Display / hide

  • Manufacturing Technology (Mechanical Engineering, Electrical and Electronic Engineering, Chemical Engineering) / Measurement engineering (Measurement Engineering)

  • Informatics / Database (Media Informatics/Data Base)

  • Informatics / Perceptual information processing (Perception Information Processing/Intelligent Robotics)

  • Life Science / Medical systems (Medical Systems)


Books 【 Display / hide

  • 顔の百科事典

    丸善出版, 2015.09

    Scope: 7 章 コンピュータと顔 ─顔の情報学─

     View Summary

    顔を見ない日はないというくらい、「顔」は私達にとってあたり前の存在ですが、私達は一体どれほど「顔」のことを知っているのでしょうか。そのような「顔」を総合的に研究するのが「顔学」です。 顔学には、動物学や人類学をはじめ、解剖学、生理学、歯学、心理学、社会学の文化的な対象として扱われるだけでなく、演劇や美術などの芸術学、コンピュータの分野では、情報学、さらに、美容学、人相学など、実に多様な学問分野と関係しています。 本書では、私達と切り離すことのできない「顔」の、歴史的・文化的・社会的・科学的側面を中項目の事典としてまとめられていることにより、多様な分野を横断する知識にも容易にアクセスが可能になっています。 日本顔学会創立20周年記念出版として、「顔学」について体系化を行った、初めての百科事典です。

  • 三次元画像センシングの新展開

    AOKI Yoshimitsu, NTS, 2015.05

    Scope: 第5章1節 色情報とレンジデータのフュージョンによる高分解能三次元レンジセンサの開発

  • 電気学会125年史

    AOKI Yoshimitsu, 電気学会, 2013.05

  • 電気学会125年史

    AOKI Yoshimitsu, 電気学会, 2013.05

  • マシンビジョン・画像検査のための画像処理入門

    AOKI Yoshimitsu, 日本工業出版, 2012.10

    Scope: pp.36-39

Papers 【 Display / hide

  • Optical flow estimation by matching time surface with event-based cameras

    Nagata J., Sekikawa Y., Aoki Y.

    Sensors (Switzerland) (Sensors (Switzerland))  21 ( 4 ) 1 - 14 2021.02

    ISSN  14248220

     View Summary

    In this work, we propose a novel method of estimating optical flow from event-based cameras by matching the time surface of events. The proposed loss function measures the timestamp consistency between the time surface formed by the latest timestamp of each pixel and the one that is slightly shifted in time. This makes it possible to estimate dense optical flows with high accuracy without restoring luminance or additional sensor information. In the experiment, we show that the gradient was more correct and the loss landscape was more stable than the variance loss in the motion compensation approach. In addition, we show that the optical flow can be estimated with high accuracy by optimization with L1 smoothness regularization using publicly available datasets.

  • Scenery Image Extension via Inpainting with a Mirrored Input

    Akimoto N., Ito D., Aoki Y.

    IEEE Access (IEEE Access)  9   59286 - 59300 2021

     View Summary

    Generative image extension has the advantage of extending the overall image size while preserving the target image because, unlike other image extensions using interpolation, it completes the surroundings of the target image. However, existing generative image extension methods tend to have poor quality in the generation of outer pixels. One method deals only with a limited number of scene classes because the extension repeats the same semantics. We propose a mirrored input, which sandwiches the extended region by mirroring a part of the target image. This replaces generative image extension with an image inpainting problem and thus helps to achieve higher quality pixel generation and can extend semantics with more complex shapes than horizontal repetition. Experimental results show that our proposed method achieves a scenery image extension that exceeds the state-of-the-art generative image extension methods in both visual quality and FID score for datasets containing diverse scenes.

  • Analysis of recent re-identification architectures for tracking-by-detection paradigm in multi-object tracking

    Ishikawa H., Hayashi M., Phan T.H., Yamamoto K., Masuda M., Aoki Y.

    VISIGRAPP 2021 - Proceedings of the 16th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications (VISIGRAPP 2021 - Proceedings of the 16th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications)  5   234 - 244 2021

    ISSN  9789897584886

     View Summary

    Person re-identification is a vital module of the tracking-by-detection framework for online multi-object tracking. Despite recent advances in multi-object tracking and person re-identification, inadequate attention was given to integrating these technologies to provide a robust multi-object tracker. In this work, we combine modern state-of-the-art re-identification models and modeling techniques on the basic tracking-by-detection framework and benchmark them on heavily occluded scenes to understand their effect. We hypothesize that temporal modeling for re-identification is crucial for training robust re-identification models for they are conditioned on sequences containing occlusions. Along with traditional image-based re-identification methods, we analyze temporal modeling methods used in video-based re-identification tasks. We also train re-identification models with different embedding methods, including triplet loss, and analyze their effect. We benchmark the re-identification models on the challenging MOT20 dataset containing crowded scenes with various occlusions. We provide a thorough assessment and investigation of the usage of modern re-identification modeling methods and prove that these methods are, in fact, effective for multi-object tracking. Compared to baseline methods, results show that these models can provide robust re-identification proved by improvements in the number of identity switching, MOTA, IDF1, and other metrics.

  • Retrieving and Highlighting Action with Spatiotemporal Reference

    Kasai S., Ishikawa Y., Hayashi M., Aoki Y., Hara K., Kataoka H.

    Proceedings - International Conference on Image Processing, ICIP (Proceedings - International Conference on Image Processing, ICIP)  2020-October   1401 - 1405 2020.10

    ISSN  9781728163956

     View Summary

    In this paper, we present a framework thatjointly retrieves and spatiotemporally highlights actions in videos by enhancing current deep cross-modal retrieval methods. Our work takes on the novel task of action highlighting, which visualizes where and when actions occur in an untrimmed video setting. Action highlighting is a fine-grained task, compared to conventional action recognition tasks which focus on classification or window-based localization. Leveraging weak supervision from annotated captions, our framework acquires spatiotemporal relevance maps and generates local embeddings which relate to the nouns and verbs in captions. Through experiments, we show that our model generates various maps conditioned on different actions, in which conventional visual reasoning methods only go as far as to show a single deterministic saliency map. Also, our model improves retrieval recall over our baseline without alignment by 2-3% on the MSR-VTT dataset.

  • Joint Pedestrian Detection and Risk-level Prediction with Motion-Representation-by-Detection

    Kataoka H., Suzuki T., Nakashima K., Satoh Y., Aoki Y.

    Proceedings - IEEE International Conference on Robotics and Automation (Proceedings - IEEE International Conference on Robotics and Automation)     1021 - 1027 2020.05

    ISSN  9781728173955

     View Summary

    The paper presents a pedestrian near-miss detector with temporal analysis that provides both pedestrian detection and risk-level predictions which are demonstrated on a self-collected database. Our work makes three primary contributions: (i) The framework of pedestrian near-miss detection is proposed by providing both a pedestrian detection and risk-level assignment. Specifically, we have created a Pedestrian Near-Miss (PNM) dataset that categorizes traffic near-miss incidents based on their risk levels (high-, low-, and no-risk). Unlike existing databases, our dataset also includes manually localized pedestrian labels as well as a large number of incident-related videos. (ii) Single-Shot MultiBox Detector with Motion Representation (SSD-MR) is implemented to effectively extract motion-based features in a detected pedestrian. (iii) Using the self-collected PNM dataset and SSD-MR, our proposed method achieved +19.38% (on risk-level prediction) and +13.00% (on joint pedestrian detection and risk-level prediction) higher scores than that of the baseline SSD and LSTM. Additionally, the running time of our system is over 50 fps on a graphics processing unit (GPU).

display all >>

Papers, etc., Registered in KOARA 【 Display / hide

Reviews, Commentaries, etc. 【 Display / hide

  • 密集領域での動作を理解するためのハイブリッド型映像解析


    東芝レビュー (東芝)  72 ( 4 ) 30 - 34 2017.09

    Internal/External technical report, pre-print, etc., Joint Work

  • 画像センシング技術によるチームスポーツ映像からのプレー解析

    林 昌希,青木 義満

    映像情報メディア学会誌 (映像情報メディア学会)  70 ( 5 ) 710 - 714 2016.09

    Article, review, commentary, editorial, etc. (scientific journal), Joint Work

  • Image Sensing Technologies and its Applications for Human Action Recognition

    AOKI Yoshimitsu

    Journal of JSNDI (日本非破壊検査協会)  65 ( 6 ) 254 - 260 2016.06

    Article, review, commentary, editorial, etc. (scientific journal), Single Work

  • パターン計測技術の深化と広がる産業応用 -総論-

    AOKI Yoshimitsu

    計測と制御 (SICE)  53 ( 7 ) 555 - 556 2014.07

    Article, review, commentary, editorial, etc. (scientific journal), Single Work

Presentations 【 Display / hide

  • 360度画像の一領域から全体を生成するGANs

    秋本直郁・林 昌希・笠井誠斗・青木義満

    情報処理学会CVIM第215回研究会 (京都) , 


    Oral presentation (general), 情報処理学会CVIM研究会

  • FOE-based Regularization for Optical Flow Estimation from an In-vehicle Event Camera

    Jun Nagata, Yusuke Sekikawa, Kosuke Hara, Yoshimitsu Aoki

    International Workshop on Advanced Image Technology 2019(IWAIT2019) (Nanyang Technological University, Singapore) , 


    Poster presentation, SPIE

  • バドミントン試合映像における姿勢推定を用いた行動認識


    映像情報メディア学会 スポーツ情報処理時限研究会 (電気通信大学) , 


    Oral presentation (general), 映像情報メディア学会 スポーツ情報処理時限研究会

  • 床面プロジェクションに伴う動的な環境変化に対応する人物追跡技術

    秋月秀一,大木美加,バティスト ブロー,鈴木健嗣,青木義満

    電子情報通信学会HCGシンポジウム2018 (伊勢市) , 


    Oral presentation (general), 電子情報通信学会ヒューマンコミュニケーショングループ

  • 日用品操作方法の理解のためのデモンストレーション動作の記述手法の提案

    秋月秀一, 青木義満



    Poster presentation, 精密工学会画像応用技術専門委員会

display all >>

Intellectual Property Rights, etc. 【 Display / hide

  • 画像処理装置,画像処理プログラムおよび画像処理方法

    Date applied: 2019-105297  2019.06 


  • 危険度推定装置,危険度推定方法及び危険度推定用コンピュータプログラム

    Date applied: 特願2015-005241  2015.01 

    Date issued: 特許第6418574号  2018.10

    Patent, Joint

Awards 【 Display / hide

  • HCGシンポジウム2018 特集テーマセッション賞

    秋月 秀一(慶大)・大木 美加・バティスト ブロー・鈴木 健嗣(筑波大)・青木 義満(慶大), 2018.12, 電子情報通信学会ヒューマンコミュニケーショングループ, 床面プロジェクションに伴う動的な環境変化に対応する人物追跡技術

    Type of Award: Award from Japanese society, conference, symposium, etc.

  • HCGシンポジウム2018 優秀インタラクティブ発表賞

    秋月 秀一(慶大)・大木 美加・バティスト ブロー・鈴木 健嗣(筑波大)・青木 義満(慶大), 2018.12, 電子情報通信学会ヒューマンコミュニケーショングループ, 床面プロジェクションに伴う動的な環境変化に対応する人物追跡技術

    Type of Award: Award from Japanese society, conference, symposium, etc.

  • 精密工学会沼田記念論文賞

    加藤直樹,箱崎浩平,里雄二,古山純子,田靡雅基,青木ヨシミツ, 2018.03, 精密工学会, 畳み込みニューラルネットワークによる距離学習を用いた動画像人物再同定

    Type of Award: Award from Japanese society, conference, symposium, etc.

  • IWAIT2018 Best Paper Award

    Ryunosuke Kurose, Masaki Hayashi, Yoshimitsu Aoki, 2018.01, IWAIT2018

    Type of Award: International academic award (Japan or overseas)

  • IES-KCIC2017 Best Paper Award

    Siti Nor Khuzaimah Amit, Yoshimitsu Aoki, 2017.09, IEEE Indonesia Section, Disaster Detection from Aerial Imagery with Convolutional Neural Network

    Type of Award: International academic award (Japan or overseas)

display all >>


Courses Taught 【 Display / hide











display all >>


Social Activities 【 Display / hide

  • 画像情報教育振興協会

  • 独立行政法人 交通安全環境研究所


Memberships in Academic Societies 【 Display / hide

  • International Symposium on Optomechatronic Technologies 2013, 

  • International Workshop on Advanced Image Technology 2013(IWAIT2013), 

  • 11th International Conference on Quality Control by Artificial Vision(QCAV2013), 

  • 3rd International Conference on 3D Body Scanning Technologies, 

  • 計測自動制御学会パターン計測部会, 


display all >>

Committee Experiences 【 Display / hide

  • 2017.04

    NEDO技術委員, NEDO

  • 2016.07

    Optics & Photonics Japan 2016 推進委員, 日本光学会

  • 2016.07

    Program committee member, International Workshop on Human Tracking and Behavior Analysis 2016

  • 2015.09

    第22回画像センシングシンポジウム 実行委員長, 画像センシング技術研究会

  • 2014.09

    第21回画像センシングシンポジウム 実行委員長, 画像センシング技術研究会

display all >>