動画一覧 - nnabla ディープラーニングチャンネル - 機械学習のまとめ nnabla ディープラーニングチャンネルの動画一覧です。 https://ml.streamdb.net/videos-rss/c/UCOELxR-yS2EbjBxQ0hx4yBw Tue, 09 Apr 24 18:00:44 +0900 【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part1~ https://ml.streamdb.net/timelines/v/tR4dglm6ps4 Tue, 09 Apr 24 18:00:44 +0900 【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part1~ 次の動画(解説編Part2):https://youtu.be/5OeLahkeKvg 前の動画(前置き&概要編):https://youtu.be/3IKCrAPe55k Consistency ModelとRectified Flowに関連する以下の論文を紹介しています。本動画は解説編Part1です。 Consistency models(解説編Part1で紹介) - “Consistency Models,” ICML 2023. - “Improved Techniques for Training Consistency Models,” ICLR 2024. - “Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion,” ICLR 2024. Rectified flow(解説編Part2で紹介) - “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow,” ICLR 2023. - “InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation,” ICLR 2024. -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part2~ https://ml.streamdb.net/timelines/v/5OeLahkeKvg Tue, 09 Apr 24 18:00:03 +0900 【AI論文解説】Consistency ModelsとRectified Flow ~解説編Part2~ 前の動画(解説編Part1):https://youtu.be/tR4dglm6ps4 Consistency ModelとRectified Flowに関連する以下の論文を紹介しています。本動画は解説編Part2です。 Consistency models(解説編Part1で紹介) - “Consistency Models,” ICML 2023. - “Improved Techniques for Training Consistency Models,” ICLR 2024. - “Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion,” ICLR 2024. Rectified flow(解説編Part2で紹介) - “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow,” ICLR 2023. - “InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation,” ICLR 2024. -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI論文解説】Consistency ModelとRectified Flow ~前置き&概要編~ https://ml.streamdb.net/timelines/v/3IKCrAPe55k Tue, 09 Apr 24 18:00:02 +0900 【AI論文解説】Consistency ModelとRectified Flow ~前置き&概要編~ 次の動画(解説編Part1):https://youtu.be/tR4dglm6ps4 Consistency ModelとRectified Flowに関連する以下の論文を紹介しています。本動画は前置き&概要編です。 Consistency models(解説編Part1で紹介) - “Consistency Models,” ICML 2023. - “Improved Techniques for Training Consistency Models,” ICLR 2024. - “Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion,” ICLR 2024. Rectified flow(解説編Part2で紹介) - “Flow Straight and Fast: Learning to Generate and Transfer Data with Rectified Flow,” ICLR 2023. - “InstaFlow: One Step is Enough for High-Quality Diffusion-Based Text-to-Image Generation,” ICLR 2024. -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI Paper】Perform one-shot face reenactment with HyperReenact! https://ml.streamdb.net/timelines/v/xUayOLiC8Yo Tue, 02 Apr 24 17:00:33 +0900 【AI Paper】Perform one-shot face reenactment with HyperReenact! This is the paper explanation lecture of "HyperReenact: One-Shot Reenactment via Jointly Learning to Refine and Retarget Faces" by Kingston University and Queen Mary University of London. This paper was published in ICCV 2023 and proposes a neural face reenactment method robust to large head pose shifts. Arxiv: https://arxiv.org/abs/2307.10797 Project Page: https://stelabou.github.io/hyperreenact.github.io/ Code: https://github.com/StelaBou/HyperReenact Image & Equation References: All the images or videos are taken from the project page / paper of HyperReenact Sony has launched a video channel to introduce information related to Neural Network Libraries (https://nnabla.org/, https://github.com/sony/nnabla/), an open source deep learning framework software provided by Sony (https://nnabla.org/). In addition to tutorials and tips on Neural Network Libraries, we will be providing information on the latest deep learning technologies (lectures, introduction of cutting-edge papers). Please subscribe to our channel and support us! The Neural Network Console (https://dl.sony.com/), an intuitive GUI-based deep learning development environment also provided by Sony, has a very popular YouTube channel (https://www.youtube.com/channel/UCRTV.... Do check that out as well! 【AI論文解説】リアルで自然な人体画像生成を実現!マルチモーダルなジオメトリ情報を理解した拡散モデル: HyperHumanを解説! https://ml.streamdb.net/timelines/v/cYZ4fwCXKIc Tue, 26 Mar 24 17:00:17 +0900 【AI論文解説】リアルで自然な人体画像生成を実現!マルチモーダルなジオメトリ情報を理解した拡散モデル: HyperHumanを解説! 【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) この動画では、拡散モデルを利用したリアルな人体画像を生成する手法に関する論文であるHyperHumanについて解説します。 拡散モデルによるText-to-Image生成手法としてはStable Diffusionが有名ですが、さらにPoseなどのCondition入力を与えることで生成画像内の人間の姿勢などを制御する手法としてControlNetなどが近年提案されています。 この論文ではそれに加えDepth情報などを内部的に利用することで、画像中の人間のポーズや身体構造、そして周囲のオブジェクトがより自然な形で生成される手法を提案しています。 拡散モデルの学習のテクニックや評価指標なども解説していますので、ぜひご覧ください。 【紹介論文】 HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion 【関連リンク】 Arxiv: https://arxiv.org/abs/2310.08579 Project Page: https://snap-research.github.io/HyperHuman/ -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI Paper Review】Using Generative AI for Image Classification! https://ml.streamdb.net/timelines/v/kaPpjfmi-94 Tue, 13 Feb 24 17:00:22 +0900 【AI Paper Review】Using Generative AI for Image Classification! In this video, we introduce the paper "Intriguing Properties of Generative Classifiers" by Google DeepMind, accepted into ICLR 2024. This paper explores the use of generative AI for image classification, comparing their properties with discriminative classifiers and human visual perception. 【ArXiv】: https://arxiv.org/abs/2309.16779 【OpenReview】: https://openreview.net/forum?id=rmg0qMKYRQ All images, figures, and tables are from the paper except where noted.​ Sony has launched a video channel to introduce information related to Neural Network Libraries (https://nnabla.org/, https://github.com/sony/nnabla/), an open source deep learning framework software provided by Sony (https://nnabla.org/). In addition to tutorials and tips on Neural Network Libraries, we will be providing information on the latest deep learning technologies (lectures, introduction of cutting-edge papers). Please subscribe to our channel and support us! The Neural Network Console (https://dl.sony.com/), an intuitive GUI-based deep learning development environment also provided by Sony, has a very popular YouTube channel (https://www.youtube.com/channel/UCRTV.... Do check that out as well! 【AI論文解説】離散+連続のハイブリッド強化学習 Hybrid Action Representation (HyAR) https://ml.streamdb.net/timelines/v/KwUK6GXn3mM Fri, 22 Dec 23 18:00:14 +0900 【AI論文解説】離散+連続のハイブリッド強化学習 Hybrid Action Representation (HyAR) 【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト:https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、昨年度のICLR2022で発表された離散と連続の両方の行動を同時に扱うことができる強化学習アルゴリズム、Hybrid Action Representation (HyAR)を紹介します。 HyARの論文中で紹介されている既存手法も合わせて解説しているので、離散+連続の強化学習について概略も簡単につかむことができるようになっています。 動画内で話している追試のコードは下記で公開しています! 【再現実装】https://github.com/sony/nnabla-rl/tree/master/reproductions/algorithms/hybrid_env/hyar 注:途中、HPPOの説明で確率分布のlogを取ると言っていますが、確率(密度)のlogの言い間違いになります。 【紹介論文】 ・HYAR: ADDRESSING DISCRETE-CONTINUOUS ACTION REINFORCEMENT LEARNING VIA HYBRID ACTION REPRESENTATION 【論文リンク】https://openreview.net/pdf?id=64trBbOhdGU 【参考文献】 ・DEEP REINFORCEMENT LEARNING IN PARAMETERIZED ACTION SPACE 【論文リンク】https://www.cs.utexas.edu/users/pstone/Papers/bib2html-links/ICLR16-hausknecht.pdf ・Hybrid Actor-Critic Reinforcement Learning in Parameterized Action Space 【論文リンク】https://www.ijcai.org/proceedings/2019/0316.pdf ・Parametrized Deep Q-Networks Learning: Reinforcement Learning with Discrete-Continuous Hybrid Action Space 【論文リンク】https://arxiv.org/pdf/1810.06394.pdf ・Deep Multi-Agent Reinforcement Learning with Discrete-Continuous Hybrid Action Spaces 【論文リンク】https://www.ijcai.org/proceedings/2019/0323.pdf -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【学会聴講報告】ICCV2023からみるVisionトレンド Part3 ~表現学習,人認識,3D表現編~ https://ml.streamdb.net/timelines/v/8gPhMDuN-kY Thu, 30 Nov 23 18:00:05 +0900 【学会聴講報告】ICCV2023からみるVisionトレンド Part3 ~表現学習,人認識,3D表現編~ 本動画は「ICCV2023からみるVisionトレンド」Part3の事前学習,人認識,3D認識編です. Part1 学会概要編:https://youtu.be/e1sPk5sf0dE Part2 効率の良い深層学習モデル編:https://youtu.be/Vy_a5cADiQ8 00:00 事前学習 10:47 Finetuning, adaptor, prompting 15:44 人認識(ロバスト性とドメイン汎化性) 20:43 人認識(新しいタスクとデータセット) 23:37 人認識(一貫性) 28:45 3D認識(シーン依存型) 36:48 3D認識(シーン非依存型) 45:15 まとめ -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【学会聴講報告】ICCV2023からみるVisionトレンド Part1 ~学会概要編~ https://ml.streamdb.net/timelines/v/e1sPk5sf0dE Mon, 27 Nov 23 18:00:30 +0900 【学会聴講報告】ICCV2023からみるVisionトレンド Part1 ~学会概要編~ 本動画は「ICCV2023からみるVisionトレンド」Part1の学会概要編です. Part2 効率の良い深層学習モデル編:https://youtu.be/Vy_a5cADiQ8 Part3 表現学習,人認識,3D表現編:https://youtu.be/8gPhMDuN-kY -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【学会聴講報告】ICCV2023からみるVisionトレンド Part2 ~効率の良い深層学習モデル編~ https://ml.streamdb.net/timelines/v/Vy_a5cADiQ8 Mon, 27 Nov 23 18:00:27 +0900 【学会聴講報告】ICCV2023からみるVisionトレンド Part2 ~効率の良い深層学習モデル編~ 8:14 データを使わない・限られた量のデータを用いた量子化とプルーニングの手法が近年提案されています 14:20 AOセンサ向け低ビット量子化の論文を紹介します 15:34 Graphics2RAW, GlowGANはそれぞれ以下の論文です. Graphics2RAW: Mapping Computer Graphics Images to Sensor RAW Images GlowGAN: Unsupervised Learning of HDR Images from LDR Images in the Wild -- 本動画は「ICCV2023からみるVisionトレンド」Part2の 効率の良い深層学習モデル編です. Part1 学会概要編:https://youtu.be/e1sPk5sf0dE Part3 表現学習,人認識,3D表現編:https://youtu.be/8gPhMDuN-kY 00:00 効率の良いアーキテクチャ 07:53 Pruningと量子化 14:13 Lowレベルと物理ベースコンピュータビジョン 16:32 Neural architecture search (supernet編) 25:55 Neural architecture search (スケーラブル・動的なアーキテクチャ編) -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【ソニー社内講演】拡散モデルと基盤モデル(2023年研究動向) https://ml.streamdb.net/timelines/v/o1ijdfbeGEE Thu, 16 Nov 23 18:00:38 +0900 【ソニー社内講演】拡散モデルと基盤モデル(2023年研究動向) 社内で行った講演を再録した動画です。拡散モデル(diffusion models)と基盤モデル(foundation models)の関係について、特に以下の2つの視点から2023年の研究動向を概説します。 ・Diffusion models with foundation models: 基盤モデルによる拡散モデルの拡張 ・Diffusion models as foundation models: 基盤モデルとしての拡散モデルの活用 2022年版の動画は以下で視聴できます。 https://youtu.be/HfTD5__gZX4 参考文献は以下です。 <イントロ> Stable Diffusion: https://github.com/Stability-AI/stablediffusion DALL-E 3: https://openai.com/dall-e-3 “AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining,” arXiv, 2023. (https://arxiv.org/abs/2308.05734) “Planning with Diffusion for Flexible Behavior Synthesis,” ICML 2022. (https://proceedings.mlr.press/v162/janner22a.html) “On the Opportunities and Risks of Foundation Models,” arXiv 2021. (https://arxiv.org/abs/2108.07258) “Deep Unsupervised Learning using Nonequilibrium Thermodynamics,” ICML 2015. (http://proceedings.mlr.press/v37/sohl-dickstein15.html) “Denoising Diffusion Probabilistic Models,” NeurIPS 2020. (https://proceedings.neurips.cc/paper/2020/hash/4c5bcfec8584af0d967f1ab10179ca4b-Abstract.html) <With foundation models> “Improving Image Generation with Better Captions,” Technical Report, 2023. (https://cdn.openai.com/papers/dall-e-3.pdf) “Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models,” arXiv, 2023. (https://arxiv.org/abs/2303.04671) “TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs,” arXiv, 2023. (https://arxiv.org/abs/2303.16434) “NExT-GPT: Any-to-Any Multimodal LLM,” arXiv, 2023. (https://arxiv.org/abs/2309.05519) <As foundation models> “Adding Conditional Control to Text-to-Image Diffusion Models,” ICCV 2023. (https://openaccess.thecvf.com/content/ICCV2023/html/Zhang_Adding_Conditional_Control_to_Text-to-Image_Diffusion_Models_ICCV_2023_paper.html) “LoRA: Low-Rank Adaptation of Large Language Models,” ICLR 2022. (https://openreview.net/forum?id=nZeVKeeFYf9) “AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning,” arXiv, 2023. (https://arxiv.org/abs/2307.04725) “One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale,” ICML 2023. (https://openreview.net/forum?id=Urp3atR1Z3) “MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation,” CVPR 2023. (https://openaccess.thecvf.com/content/CVPR2023/papers/Ruan_MM-Diffusion_Learning_Multi-Modal_Diffusion_Models_for_Joint_Audio_and_Video_CVPR_2023_paper.pdf) “CoDi: Any-to-Any Generation via Composable Diffusion,” NeurIPS 2023. (https://openreview.net/forum?id=2EDqbSCnmF) -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 ICML論文 SQVAEを対談紹介!#shorts https://ml.streamdb.net/timelines/v/w4IRrnbCOxs Mon, 06 Nov 23 18:00:42 +0900 ICML論文 SQVAEを対談紹介!#shorts 本編: https://youtu.be/_AhE4VXOjL8 Sony's Research Mindsは、優れた研究を行っている方をお呼びして、その魅力を引き出す対談番組です 今回はICML2022採択論文"SQVAE"についての対談です Yuhta Takida, Takashi Shibuya, WeiHsiang Liao, Chieh-Hsin Lai, Junki Ohmura, Toshimitsu Uesaka, Naoki Murata, Shusuke Takahashi, Toshiyuki Kumakura, Yuki Mitsufuji, SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization, In ICML2022 paper: https://proceedings.mlr.press/v162/takida22a/takida22a.pdf code: https://github.com/sony/sqvae - VIDEO - Creative Direction & Cinematographer: Yuki Asukabe 1st Assistant Camera: Katsuya Sakoyama Special Thanks: Backcasters -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 ICML論文 GibbsDDRMを対談紹介! #shorts https://ml.streamdb.net/timelines/v/XRoPAYu-Z8A Wed, 01 Nov 23 18:00:32 +0900 ICML論文 GibbsDDRMを対談紹介! #shorts 本編: https://youtu.be/gt4YZK56nrg Sony's Research Mindsは、優れた研究を行っている方をお呼びして、その魅力を引き出す対談番組です 今回はICML2023採択論文"GibbsDDRM"についての対談です Naoki Murata, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Gibbsddrm: A partially collapsed gibbs sampler for solving blind inverse problems with denoising diffusion restoration, In ICML2023 paper: https://proceedings.mlr.press/v202/murata23a.html code: https://github.com/sony/gibbsddrm - VIDEO - Creative Direction & Cinematographer: Yuki Asukabe 1st Assistant Camera: Katsuya Sakoyama Special Thanks: Backcasters -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【ICML2022】離散と連続のハイブリッド!新しい生成モデル "SQVAE"を紹介 | Sony's Research Minds https://ml.streamdb.net/timelines/v/LARyoWw4Mp8 Mon, 30 Oct 23 18:00:13 +0900 【ICML2022】離散と連続のハイブリッド!新しい生成モデル "SQVAE"を紹介 | Sony's Research Minds Sony's Research Mindsは、優れた研究を行っている方をお呼びして、その魅力を引き出す対談番組です 今回はICML2022採択論文"SQVAE"についての対談です Yuhta Takida, Takashi Shibuya, WeiHsiang Liao, Chieh-Hsin Lai, Junki Ohmura, Toshimitsu Uesaka, Naoki Murata, Shusuke Takahashi, Toshiyuki Kumakura, Yuki Mitsufuji, SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization, In ICML2022 paper: https://proceedings.mlr.press/v162/takida22a/takida22a.pdf code: https://github.com/sony/sqvae 【目次】 00:00 - Intro 01:46 - SQVAEの紹介 37:31 - Outro - VIDEO - Creative Direction & Cinematographer: Yuki Asukabe 1st Assistant Camera: Katsuya Sakoyama Special Thanks: Backcasters -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【ICML2023】あらゆるデータ修復を可能に! "GibbsDDRM"を紹介 | Sony's Research Minds https://ml.streamdb.net/timelines/v/_CMku8f8aBc Wed, 25 Oct 23 18:00:23 +0900 【ICML2023】あらゆるデータ修復を可能に! "GibbsDDRM"を紹介 | Sony's Research Minds Sony's Research Mindsは、優れた研究を行っている方をお呼びして、その魅力を引き出す対談番組です 今回はICML2023採択論文"GibbsDDRM"についての対談です Naoki Murata, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon, Gibbsddrm: A partially collapsed gibbs sampler for solving blind inverse problems with denoising diffusion restoration, In ICML2023 paper: https://proceedings.mlr.press/v202/murata23a.html code: https://github.com/sony/gibbsddrm 【目次】 00:00 - Intro 02:16 - GibbsDDRMの紹介 28:19 - Outro - VIDEO - Creative Direction & Cinematographer: Yuki Asukabe 1st Assistant Camera: Katsuya Sakoyama Special Thanks: Backcasters -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI Paper】Perform high fidelity portrait avatar reconstruction in real-time with StyleAvatar! https://ml.streamdb.net/timelines/v/R-6WwAQ0iTE Tue, 10 Oct 23 17:00:22 +0900 【AI Paper】Perform high fidelity portrait avatar reconstruction in real-time with StyleAvatar! This is the paper explanation lecture of "StyleAvatar: Real-time Photo-realistic Portrait Avatar from a Single Video" by Tsinghua University and NNKOSMOS Technology. This paper was published in SIGGRAPH 2023 and proposes a real-time high fidelity portrait avatar reconstruction method. Arxiv: https://arxiv.org/abs/2305.00942 Project Page: https://www.liuyebin.com/styleavatar/styleavatar.html Video: https://www.liuyebin.com/styleavatar/assets/Styleavatar.mp4 Code: https://github.com/LizhenWangT/StyleAvatar Image & Equation References: Equations on slide 17 are taken from StyleAvatar paper. Equations on slide 28 are for demonstration purpose only, taken from various web sources. All the other images or videos are taken from the project page / paper of StyleAvatar Sony has launched a video channel to introduce information related to Neural Network Libraries (https://nnabla.org/, https://github.com/sony/nnabla/), an open source deep learning framework software provided by Sony (https://nnabla.org/). In addition to tutorials and tips on Neural Network Libraries, we will be providing information on the latest deep learning technologies (lectures, introduction of cutting-edge papers). Please subscribe to our channel and support us! The Neural Network Console (https://dl.sony.com/), an intuitive GUI-based deep learning development environment also provided by Sony, has a very popular YouTube channel (https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA). Do check that out as well! 【AI論文解説】GRES(Generalized RES) 参照表現セグメンテーションタスクの前提を覆す!multi- / single- / no-targetに対応するタスクと手法の提案 https://ml.streamdb.net/timelines/v/ZUMBuGhQzDg Fri, 15 Sep 23 18:00:33 +0900 【AI論文解説】GRES(Generalized RES) 参照表現セグメンテーションタスクの前提を覆す!multi- / single- / no-targetに対応するタスクと手法の提案 【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、CVPR2023で発表された、GRES (Generalized Referring Expression Segmentation) を紹介します。  【論文リンク】https://openaccess.thecvf.com/content/CVPR2023/html/Liu_GRES_Generalized_Referring_Expression_Segmentation_CVPR_2023_paper.html  【プロジェクトページ】 https://henghuiding.github.io/GRES/ スライド内の画像は紹介論文より引用しています。 一部、以下の論文からも引用しています。 - PhraseCut: Language-Based Image Segmentation in the Wild (CVPR2020) - Multimodal Diffusion Segmentation Model for Object Segmentation from Manipulation Instructions (IROS2023) -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI論文解説】UNINEXT 20個のSOTAを単一のパラメータで達成!?Instance Perceptionにおける統一モデル https://ml.streamdb.net/timelines/v/PtLTREXwA7Q Thu, 14 Sep 23 18:00:16 +0900 【AI論文解説】UNINEXT 20個のSOTAを単一のパラメータで達成!?Instance Perceptionにおける統一モデル 【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、CVPR2023で発表された、UNINEXT (Universal Instance Perception as Object Discovery and Retrieval) を紹介します。  【論文リンク】https://openaccess.thecvf.com/content/CVPR2023/papers/Yan_Universal_Instance_Perception_As_Object_Discovery_and_Retrieval_CVPR_2023_paper.pdf  【githubページ】 https://github.com/MasterBin-IIAU/UNINEXT スライド内の画像は紹介論文、またはスライド内に記載した論文より引用しています。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【論文対談】データ拡張をもっと自然に!CVPR2023採択論文"Rawgment"を紹介 | Sony's Research Minds https://ml.streamdb.net/timelines/v/nKfnSVyGX_I Fri, 04 Aug 23 19:00:00 +0900 【論文対談】データ拡張をもっと自然に!CVPR2023採択論文"Rawgment"を紹介 | Sony's Research Minds Sony's Research Mindsは、優れた研究を行っている方をお呼びしてその魅力を引き出す対談番組です 今回はCVPR2022採択論文"Rawgment"についての対談です Masakazu Yoshimura Junji Otsuka Atsushi Irie Takeshi Ohashi, Rawgment: Noise-Accounted RAW Augmentation Enables Recognition in a Wide Variety of Environments, In CVPR2023. https://arxiv.org/abs/2210.16046 【目次】 00:00 - Intro 01:10 - Rawgmentの紹介 27:26 - Outro - VIDEO - Creative Direction & Cinematographer: Yuki Asukabe 1st Assistant Camera: Katsuya Sakoyama Special Thanks: Backcasters -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ https://ml.streamdb.net/timelines/v/_IpPkceC0Z4 Wed, 02 Aug 23 18:00:25 +0900 【AI論文解説】RetNet: Transformerの後継!効率の良いLLM向けアーキテクチャ 【AI論文解説】はディープラーニング・機械学習に関する論文を紹介する動画シリーズです。(プレイリスト: https://www.youtube.com/playlist?list=PLbtqZvaoOVPCqfmnrBfo9Xv5mtDr0LjQZ ) 今回は、以下の論文について紹介いたします。 【紹介論文】 ・Retentive Network: A Successor to Transformer for Large Language Models  【論文リンク】https://arxiv.org/pdf/2307.08621.pdf こちらの論文では、Transformerの計算量の問題を解決するための効率の良い系列モデルを提案しています。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【学会聴講報告】CVPR2023からみるVision最先端トレンド https://ml.streamdb.net/timelines/v/4OTcSYmovf0 Tue, 25 Jul 23 17:00:04 +0900 【学会聴講報告】CVPR2023からみるVision最先端トレンド この動画では、Computer VisionのトップカンファレンスであるCVPR2023の概要や発表動向について解説します。 【目次】 00:00 - Intro 01:55 - CVPR2023学会概要 02:38 - トレンド分析 06:34 - 技術トピック① General Purpose Vision Models 20:09 - 技術トピック② Self-Supervised Learning 26:41 - 技術トピック③ NeRF for Camera Pose Estimation 34:31 - CVPR2023全体まとめ 【参考】 CVPR2022からみるVision最先端トレンド (https://www.youtube.com/watch?v=SeioHA14ND8) CVPR2021からみるVision最先端トレンド (https://www.youtube.com/watch?v=l8kjADOcsKE) ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/c/NeuralNetwo... )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 チャンネル登録1万人ありがとうございます https://ml.streamdb.net/timelines/v/mXWfy4L7RjA Fri, 14 Jul 23 17:00:24 +0900 チャンネル登録1万人ありがとうございます nnablaディープラーニングチャンネルのチャンネル登録者数が10000人を突破しました! いつもご視聴いただき誠にありがとうございます。 この動画では、チャンネル運営メンバーから、当チャンネルをご視聴いただいているみなさんへの感謝の意と、当チャンネルの人気動画 / コンテンツ、そして今後の抱負などをお伝えします。 - VIDEO - Creative Direction & Cinematographer: Yuki Asukabe 1st Assistant Camera: Katsuya Sakoyama Special Thanks: Backcasters -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【AI論文解説】拡散モデルによる動画生成 https://ml.streamdb.net/timelines/v/4XYJMhOIM9I Fri, 16 Jun 23 18:00:07 +0900 【AI論文解説】拡散モデルによる動画生成 動画生成を行うための拡散モデルについて、最新の研究をまとめて紹介しています。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/, https://github.com/sony/nnabla/ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【ソニーのAI技術紹介】Diffusion Modelの推論高速化 https://ml.streamdb.net/timelines/v/kdW-PNQTQEc Wed, 14 Jun 23 18:00:34 +0900 【ソニーのAI技術紹介】Diffusion Modelの推論高速化 【ソニーのAI技術紹介】はディープラーニング・機械学習に関するソニーの論文を紹介する動画シリーズです。 MIRU2023で発表する我々の研究について紹介します。 この論文は、Diffusion Modelの推論の高速化を目的とした論文です。いくつかの軽量なモデルと、それを時刻毎に自動選択することでDiffusion Modelの推論高速化を実現しています。 (注意) 4:48「UNetとしてデノイズ」はミスで、正しくは「ダウンサンプリング」です。 -- ソニーが提供するオープンソースのディープラーニング(深層学習)フレームワークソフトウェアのNeural Network Libraries( https://nnabla.org/​​, https://github.com/sony/nnabla/​​ )に関連する情報を紹介する動画チャンネルを開設しました( https://www.youtube.com/c/nnabla​ )。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報(講義、最先端論文紹介)などを発信していきます。チャンネル登録と応援よろしくおねがいします! 同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console( https://dl.sony.com/​ )が発信する大人気のYouTubeチャンネル( https://www.youtube.com/channel/UCRTV5p4JsXV3YTdYpTJECRA )でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。 【ICLR2023論文解説】Disentanglementは自由自在!?MR-VAEの紹介【cvpaper.challengeコラボ企画】 https://ml.streamdb.net/timelines/v/2B9ZvL-v0Jg Fri, 19 May 23 19:00:02 +0900 【ICLR2023論文解説】Disentanglementは自由自在!?MR-VAEの紹介【cvpaper.challengeコラボ企画】 この動画では,一度の学習でDisentanglement度合いを学習後に調整できるMR-VAE (Multi Rate VAE) の論文を解説します.本論文では,Disentanglementの度合いを調整できるβ-VAEのβの値をアフィン変換(全結合層)によって変容することで,Disentanglementの度合いを調整するためには複数回のVAEの学習が必要であった問題を克服しました. 【キーワード】 深層学習,Rate-Distortion,Disentanglement,β-VAE,Hypernetworks,MR-VAE,人工知能 【紹介論文】 Multi-Rate VAE: Train Once, Get the Full Rate-Distortion Curve 【関連リンク】 MR-VAE:https://openreview.net/forum?id=OJ8aSjCaMNK Rate-Distortionの関係:https://proceedings.mlr.press/v80/alemi18a.html β-VAE:https://openreview.net/forum?id=Sy2fzU9gl Disentanglementの日本語解説資料:https://www.slideshare.net/HidekiTsunashima/disentanglement-surveycan-you-explain-how-much-are-generative-models-disentangled 【解説者】 綱島 秀樹(Hideki Tsunashima) 質問はコメントまたはTwitterからお願いします. Twitter: @maguroIsland 【ICLR2023論文解説】意外すぎるほどシンプルなFew-shot Domain Adaptation新手法!Latent Code Learning【cvpaper.challengeコラボ企画】 https://ml.streamdb.net/timelines/v/ohP6P-5fmBc Wed, 17 May 23 19:00:36 +0900 【ICLR2023論文解説】意外すぎるほどシンプルなFew-shot Domain Adaptation新手法!Latent Code Learning【cvpaper.challengeコラボ企画】 【キーワード】 深層学習, Domain Adaptation, Generative Models, styleGAN, few-shot generation, 少数データ学習, 生成モデル 【紹介論文】 Few-shot Cross-domain Image Generation via Inference-time Latent-code Learning (ICLR 2023 notable top-25%) 【関連リンク】 OpenReview: https://openreview.net/forum?id=sCYXJr3QJM8 Github: https://github.com/arnabkmondal/GenDA 【解説者】 八島 拓也 質問はコメントからお願いします。 【ICLR2023論文解説】Classification by Description: LLMを用いた説明可能性の高い画像分類フレームワーク【cvpaper.challengeコラボ企画】 https://ml.streamdb.net/timelines/v/JvEnz6FMaUA Fri, 12 May 23 19:00:26 +0900 【ICLR2023論文解説】Classification by Description: LLMを用いた説明可能性の高い画像分類フレームワーク【cvpaper.challengeコラボ企画】 著者: Sachit Menon、Carl Vondrick 所属: コンピュータサイエンス学科、コロンビア大学 カンファレンス: ICLR 2023 発表者: 飯岡雄偉(Yui Iioka)、慶應義塾大学 動画の説明: この動画では、Sachit MenonとCarl Vondrickによる研究論文「大規模言語モデルを用いた視覚 的分類の説明」を紹介します。この研究では、視覚-言語モデル(VLM)を用いた分類のための代 替フレームワーク、「classification by description」が提案されています。カテゴリ名のみを使用す る代わりに、オブジェクトの記述的な特徴を調べることで、言語の豊かな文脈を活用します。 大規模言語モデル(例:GPT-3)をdescriptorとして照会し、これらを意思決定に使用することで、 モデルは固有の説明可能性を得ます。著者たちは、このアプローチがImageNetの精度を向上さ せ、トレーニング中に見えない概念のVLMを調整し、ベースラインと比較してバイアスを効果的に 軽減することを示しています。 この動画を視聴して、提案されたフレームワーク、その方法論、および説明可能なモデルの意思 決定、認識タスクのパフォーマンス向上、新しい知識への適応、バイアスの緩和において有望な 結果を達成したことについて詳しく学びましょう。 キーワード: visual classification、large language models、vision-language models、CLIP、 GPT-3、説明可能性、ImageNet Authors: Sachit Menon, Carl Vondrick Institution: Department of Computer Science, Columbia University Conference: ICLR 2023 Presenter: Yui Iioka, Keio University Video Description: In this video, Yui Iioka presents the research paper "Visual Classification via Description from Large Language Models" by Sachit Menon and Carl Vondrick. This study introduces an alternative framework for classification with vision-language models (VLMs), called "classification by description." Instead of just using category names, the model leverages the rich context of language by checking for descriptive features of objects. By querying large language models (e.g., GPT-3) for descriptors and using these to make decisions, the model gains inherent explainability. The researchers show that this approach improves accuracy on ImageNet, adapts VLMs to recognize concepts unseen during training, and effectively mitigates bias compared to the baseline. Watch this video to learn more about the proposed framework, its methodology, and the promising results it has achieved in providing interpretable model decisions, improving performance on recognition tasks, enabling adaptation to new knowledge, and mitigating bias. Keywords: visual classification, large language models, vision-language models, CLIP, GPT-3, explainability, ImageNet ===================================================================== 【ICLR2023論文解説】クラスタリングを使った新しい特徴抽出方式【cvpaper.challengeコラボ企画】 https://ml.streamdb.net/timelines/v/wBQ1Ae1Q4-s Thu, 11 May 23 19:00:42 +0900 【ICLR2023論文解説】クラスタリングを使った新しい特徴抽出方式【cvpaper.challengeコラボ企画】 この動画では、クラスタリングを使って畳み込みや attention とは異なる新たな特徴抽出方式について解説します。の論文の概要に加えて、畳み込みやattention との違いについても整理します。 【キーワード】 深層学習, クラスタリング, 点群 【紹介論⽂】 “Image as Set of Points” 【関連リンク】 OpenReview: https://openreview.net/forum?id=awnvqZja69 【解説者】 宮川 翔貴 (Shoki Miyagawa) 【連絡先】 Twitter: @smygw72 【ICLR2023論文解説】ベイズ誤差推定による機械学習タスク難易度の定量化と SOTA モデル評価【cvpaper.challengeコラボ企画】 https://ml.streamdb.net/timelines/v/sFS5OTvSgqI Wed, 10 May 23 19:00:39 +0900 【ICLR2023論文解説】ベイズ誤差推定による機械学習タスク難易度の定量化と SOTA モデル評価【cvpaper.challengeコラボ企画】 この動画では、ベイズ誤差と呼ばれる統計的機械学習でのデータやモデルの評価に関する推定量を解説します。本論文ではこれまでのインスタンスとモデルの学習による推定に対して、モデルの学習を必要としない推定量を提案しています。ベイズ誤差を機械学習プロジェクトに利用することで、モデルの分類性能に改善余地があるか、またはテストデータに過適合にしていないか、など重要な知見を得ることができます。 【キーワード】 ベイズ誤差、データセット、SOTA、分類性能 【紹介論文】 IS THE PERFORMANCE OF MY DEEP NETWORK TOO GOOD TO BE TRUE? A DIRECT APPROACH TO ESTIMATING THE BAYES ERROR IN BINARY CLASSIFICATION 【関連リンク】 OpenReview: https://openreview.net/forum?id=FZdJQgy05rz 1st author: https://takashiishida.github.io/ 【解説者】 中田 和真 質問はコメントからお願いします。 解説資料には「いらすとや: https://www.irasutoya.com/」を使用しています。 【ICLR2023論文解説】学習済みVision Transformerを2倍高速化!?Token削減の新手法: Token Merging【cvpaper.challengeコラボ企画】 https://ml.streamdb.net/timelines/v/8m-6IDMBKqc Tue, 09 May 23 19:00:08 +0900 【ICLR2023論文解説】学習済みVision Transformerを2倍高速化!?Token削減の新手法: Token Merging【cvpaper.challengeコラボ企画】 【キーワード】 深層学習, 画像認識, 音声認識, Vision Transformer, 高速化, Token merging, ToMe 【紹介論文】 Token Merging:Your ViT But Faster (ICLR 2023 notable top-5%) 【関連リンク】 OpenReview: https://openreview.net/forum?id=JroZRaRw7Eu 【解説者】 名前:廣瀬翔太 質問はコメントまたはTwitterからお願いします Twitter: sayuki_study