【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

Transformer のモデル構造とその数理を完全に解説しました。このレベルの解説は他にないんじゃないかってくらい話しました。
結局行列と内積しか使ってないんですよ。すごくないですか？

※行列の転値は、「左上に小文字の t 」という文化で生きています。

☆お知らせ☆
AIcia Solid Project 公式HPが出来ました！！！
https://sites.google.com/view/aicia-official/top
HPでは私たちや動画コンテンツの紹介、板書データの公開などをしています。是非ご活用ください！！

▼関連動画
忙しい人向けはこちら → https://www.youtube.com/watch?v=FFoLqib6u-0
Multi-Head Attention は 15:27 から！

Deep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP

自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR

▼目次
公開後追加予定！

▼参考文献
Vaswani, Ashish, et al. "Attention is all you need." arXiv preprint arXiv:1706.03762 (2017).
https://arxiv.org/abs/1706.03762
原論文！やや数式は難解ですが、この動画を見終わった後なら読めるはず！
当時の問題意識や、Transformerの売りどころがたくさん書いてあります。
（個AI的には、論文タイトルは、内容の要約であるべきだよなーと思います。意見や感想じゃなくて。）

【2019年版】自然言語処理の代表的なモデル・アルゴリズム時系列まとめ - Qiita https://qiita.com/LeftLetter/items/14b8f10b0ee98aa181b7
いろいろこれを参考にして動画を作っています

▼終わりに
ご視聴ありがとうございました！
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ！
お仕事、コラボのご依頼は、TwitterのDMからお願い致します。
動画生成：AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集：AIris Solid (妹) (Twitter: https://twitter.com/AIris_Solid/ )

=======

Logo: TEICAさん ( https://twitter.com/T_E_I_C_A )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( https://twitter.com/W01fa )

【深層学習】Transformer - Multi-Head Attentionを理解してやろうじゃないの【ディープラーニングの世界vol.28】#106 #VRアカデミア #DeepLearning

動画乙。 親の顔より見たモデル(コロナ渦)。TransFormerはいろいろ記事があるけど、やっぱこの動画はわかりやすい。適用モデルが広く、精度も良い。本当、(計算リソースが潤沢であれば)つよつよモデル。

一つ確認させていただきたいのですが、頃で仰っている「単語の次元のベクトル」というのは、「ボキャブラリーサイズの次元のベクトル」という理解で合っていますでしょうか？

Multi-Head Attention は から！

の説明ではqはベクトルなので出力もベクトルになるっていうのは理解できるんですけど

の「次元の高いベクトルは長い」という日本語がよく分かりません...要素の分散が大きくなるからsqrt(d)でスケーリングしていると理解しているのですが、私の認識は合ってるでしょうか？

いまいち分からないのがのhead_iは横ベクトルと説明なされてましたが、scaled dot productの説明から行くと横ベクトルが縦に並んだ行列と思ったのですがどういった理解が正しいのでしょうか？

ずっと疑問でしたが、辺りでそこを解説して下さっていて、私にとっては非常にためになりました。詰むポイント?を丁寧に解説してくださり、とてもありがたかったです。

AIcia Solid Project

Timetable

よく話題になっている単語

オープニング

価値反復法とは

今の状況のおさらい

復習

ベルマン最適作用素

最適方策を計算

まとめ

エンディング

動画乙。親の顔より見たモデル(コロナ渦)。TransFormerはいろいろ記事があるけど、やっぱこの動画はわかりやすい。適用モデルが広く、精度も良い。本当、(計算リソースが潤沢であれば)つよつよモデル。

Multi-Head Attention はから！