- 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

Transformer のモデル構造とその数理を完全に解説しました。このレベルの解説は他にないんじゃないかってくらい話しました。
結局行列と内積しか使ってないんですよ。すごくないですか?

※行列の転値は、「左上に小文字の t 」という文化で生きています。

☆お知らせ☆
AIcia Solid Project 公式HPが出来ました!!!
ht...
Transformer のモデル構造とその数理を完全に解説しました。このレベルの解説は他にないんじゃないかってくらい話しました。
結局行列と内積しか使ってないんですよ。すごくないですか?

※行列の転値は、「左上に小文字の t 」という文化で生きています。

☆お知らせ☆
AIcia Solid Project 公式HPが出来ました!!!
https://sites.google.com/view/aicia-official/top
HPでは私たちや動画コンテンツの紹介、板書データの公開などをしています。是非ご活用ください!!

▼関連動画
忙しい人向けはこちら → https://www.youtube.com/watch?v=FFoLqib6u-0
Multi-Head Attention は 15:27 から!

Deep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP

自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR

▼目次
公開後追加予定!

▼参考文献
Vaswani, Ashish, et al. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).
https://arxiv.org/abs/1706.03762
原論文! やや数式は難解ですが、この動画を見終わった後なら読めるはず!
当時の問題意識や、Transformerの売りどころがたくさん書いてあります。
(個AI的には、論文タイトルは、内容の要約であるべきだよなーと思います。意見や感想じゃなくて。)

【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita https://qiita.com/LeftLetter/items/14b8f10b0ee98aa181b7
いろいろこれを参考にして動画を作っています

▼終わりに
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、TwitterのDMからお願い致します。
動画生成:AIcia Solid (Twitter: )
動画編集:AIris Solid (妹) (Twitter: )

=======

Logo: TEICAさん ( )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( )
動画乙。 親の顔より見たモデル(コロナ渦)。TransFormerはいろいろ記事があるけど、やっぱこの動画はわかりやすい。適用モデルが広く、精度も良い。本当、(計算リソースが潤沢であれば)つよつよモデル。 - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

動画乙。 親の顔より見たモデル(コロナ渦)。TransFormerはいろいろ記事があるけど、やっぱこの動画はわかりやすい。適用モデルが広く、精度も良い。本当、(計算リソースが潤沢であれば)つよつよモデル。

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:05:25 - 00:39:35
辺りで、「入力単語列をベクトルの列に」とありますが、入力する行列の列に単語をベクトル化したものが入っていて、行数が単語数になっているのか、もしくはその逆なのかどちらでしょうか、、、?ご回答いただけると幸いです。 - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

辺りで、「入力単語列をベクトルの列に」とありますが、入力する行列の列に単語をベクトル化したものが入っていて、行数が単語数になっているのか、もしくはその逆なのかどちらでしょうか、、、?ご回答いただけると幸いです。

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:09:16 - 00:39:35
一つ確認させていただきたいのですが、頃で仰っている「単語の次元のベクトル」というのは、「ボキャブラリーサイズの次元のベクトル」という理解で合っていますでしょうか? - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

一つ確認させていただきたいのですが、頃で仰っている「単語の次元のベクトル」というのは、「ボキャブラリーサイズの次元のベクトル」という理解で合っていますでしょうか?

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:13:49 - 00:39:35
Multi-Head Attention は  から! - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

Multi-Head Attention は から!

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:15:27 - 00:39:35
の説明ではqはベクトルなので出力もベクトルになるっていうのは理解できるんですけど - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

の説明ではqはベクトルなので出力もベクトルになるっていうのは理解できるんですけど

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:18:39 - 00:39:35
の「次元の高いベクトルは長い」という日本語がよく分かりません...要素の分散が大きくなるからsqrt(d)でスケーリングしていると理解しているのですが、私の認識は合ってるでしょうか? - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

の「次元の高いベクトルは長い」という日本語がよく分かりません...要素の分散が大きくなるからsqrt(d)でスケーリングしていると理解しているのですが、私の認識は合ってるでしょうか?

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:21:50 - 00:39:35
質問なのですが、あたりでベクトルの類似度を計算しているQKだが、次元が高くなると値が大きくなってしまうため、純粋な類似度を計算する為にroot(d)で割るという話があったと思うのですが、どうしてroot(d)で割ると純粋な類似度が計算できるのでしょうか? - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

質問なのですが、あたりでベクトルの類似度を計算しているQKだが、次元が高くなると値が大きくなってしまうため、純粋な類似度を計算する為にroot(d)で割るという話があったと思うのですが、どうしてroot(d)で割ると純粋な類似度が計算できるのでしょうか?

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:22:30 - 00:39:35
いまいち分からないのがのhead_iは横ベクトルと説明なされてましたが、scaled dot productの説明から行くと横ベクトルが縦に並んだ行列と思ったのですがどういった理解が正しいのでしょうか? - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

いまいち分からないのがのhead_iは横ベクトルと説明なされてましたが、scaled dot productの説明から行くと横ベクトルが縦に並んだ行列と思ったのですがどういった理解が正しいのでしょうか?

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:29:10 - 00:39:35
付近の内容で、ひとつ気になった事があるので質問させていただきます。Multi-Head AttentionにおけるW_Oの重みを掛ける操作の必要性(意味)を教えていただけますでしょうか。単に著者が定義したものであり、天下り的に受け入れるべきものなのでしょうか。 - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

付近の内容で、ひとつ気になった事があるので質問させていただきます。Multi-Head AttentionにおけるW_Oの重みを掛ける操作の必要性(意味)を教えていただけますでしょうか。単に著者が定義したものであり、天下り的に受け入れるべきものなのでしょうか。

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:29:10 - 00:39:35
ずっと疑問でしたが、辺りでそこを解説して下さっていて、私にとっては非常にためになりました。詰むポイント?を丁寧に解説してくださり、とてもありがたかったです。 - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

ずっと疑問でしたが、辺りでそこを解説して下さっていて、私にとっては非常にためになりました。詰むポイント?を丁寧に解説してくださり、とてもありがたかったです。

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:31:50 - 00:39:35
わかりやすかったです!とても勉強になりました.質問なのですが,あたりにて「ベクトルを回転させてぶつけることによってXの注目の仕方を変える」といった説明がいまいち理解できませんでした.ここの部分を理解するにはどういった知識が必要でしょうか,また参考にできる資料があれば教えていただきたいです. - 【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

わかりやすかったです!とても勉強になりました.質問なのですが,あたりにて「ベクトルを回転させてぶつけることによってXの注目の仕方を変える」といった説明がいまいち理解できませんでした.ここの部分を理解するにはどういった知識が必要でしょうか,また参考にできる資料があれば教えていただきたいです.

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning
2021年07月02日 
00:35:00 - 00:39:35

AIcia Solid Project

📋 #AIciart

※本サイトに掲載されているチャンネル情報や動画情報はYouTube公式のAPIを使って取得・表示しています。

Timetable

動画タイムテーブル

動画数:292件

オープニング - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

オープニング

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:00:00 - 00:00:42
価値反復法とは - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

価値反復法とは

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:00:42 - 00:03:25
今の状況のおさらい - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

今の状況のおさらい

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:03:25 - 00:04:47
復習 - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

復習

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:04:47 - 00:07:31
ベルマン最適作用素 - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

ベルマン最適作用素

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:07:31 - 00:12:48
最適方策を計算 - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

最適方策を計算

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:12:48 - 00:15:18
まとめ - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

まとめ

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:15:18 - 00:17:37
エンディング - 【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning

エンディング

【強化学習】価値反復法 - いきなり最適方策を推定!【GPIの元ネタ】RL vol. 12 #172 #VRアカデミア #ReinforcementLearning
2024年02月25日 
00:17:37 - 00:18:58