- Week 12 – Practicum: Attention and the Transformer

Week 12 – Practicum: Attention and the Transformer

Course website: http://bit.ly/DLSP20-web
Playlist: http://bit.ly/pDL-YouTube
Speaker: Alfredo Canziani
Week 12: http://bit.ly/DLSP20-12

0:00:00 – Week 12 – Practicum

PRACTICUM: http://bit.ly/DLSP20-12-3
We introduce attention, focusing on self-attention and its hidden layer representations of t...

Course website: http://bit.ly/DLSP20-web
Playlist: http://bit.ly/pDL-YouTube
Speaker: Alfredo Canziani
Week 12: http://bit.ly/DLSP20-12

0:00:00 – Week 12 – Practicum

PRACTICUM: http://bit.ly/DLSP20-12-3
We introduce attention, focusing on self-attention and its hidden layer representations of the inputs. Then, we introduce the key-value store paradigm and discuss how to represent queries, keys, and values as rotations of an input. Finally, we use attention to interpret the transformer architecture, taking a forward pass through a basic transformer, and comparing the encoder-decoder paradigm to sequential architectures.
0:01:09 – Attention
0:17:36 – Key-value store
0:35:14 – Transformer and PyTorch implementation
0:54:00 – Q&A

#Deep Learning #Yann LeCun #PyTorch #NYU #Neural Machine Translation #NMT #Natural Language Processing #NLP #attention #transformer #BERT #OpenAI #GTP2 #GTP3 #self-attention #cross-attention #encoder-decoder #RNN #autoregressive #softmax

– Week 12 – Practicum - Week 12 – Practicum: Attention and the Transformer

– Week 12 – Practicum

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:00:00 - 00:01:09

– Attention - Week 12 – Practicum: Attention and the Transformer

– Attention

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:01:09 - 00:17:36

Thanks a lot for the video Alfredo. Very nice explanations, and e we can see that you are putting lot of efforts in pos-editing (like the add up voice @ :-)) Keep doing the great work 👏 - Week 12 – Practicum: Attention and the Transformer

Thanks a lot for the video Alfredo. Very nice explanations, and e we can see that you are putting lot of efforts in pos-editing (like the add up voice @ :-)) Keep doing the great work 👏

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:03:55 - 01:18:02

isn't it that A would just be an identity matrix if we do argmax? And H would than be equal to X... What's the purpose of this process then? - Week 12 – Practicum: Attention and the Transformer

isn't it that A would just be an identity matrix if we do argmax? And H would than be equal to X... What's the purpose of this process then?

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:16:05 - 00:31:18

I've had the same question the whole first 16 minutes: "what are the x?" Thank for asking, you made the whole lesson more understandable :) - Week 12 – Practicum: Attention and the Transformer

I've had the same question the whole first 16 minutes: "what are the x?" Thank for asking, you made the whole lesson more understandable :)

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:16:30 - 01:18:02

– Key-value store - Week 12 – Practicum: Attention and the Transformer

– Key-value store

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:17:36 - 00:35:14

Question #2: So we have q = Wq * x and k = Wk * x. Why don't we just learn W = Wq * Wk^-1 and compare q = W * x to all of the x? (You mentioned that that would be the cross-attention, but then how the two are different?..) - Week 12 – Practicum: Attention and the Transformer

Question #2: So we have q = Wq * x and k = Wk * x. Why don't we just learn W = Wq * Wk^-1 and compare q = W * x to all of the x? (You mentioned that that would be the cross-attention, but then how the two are different?..)

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:31:18 - 01:18:02

– Transformer and PyTorch implementation - Week 12 – Practicum: Attention and the Transformer

– Transformer and PyTorch implementation

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:35:14 - 00:54:00

-convolutional layer at is kinda checking an attention value with a threshold? Kinda if the attention value is less than the threshold, then we set this value to 0 ?Or mb it is just a useful trick to split our huge dxt matrix onto t d-vectors (by using all the kernels equal to 1)? 🤯 - Week 12 – Practicum: Attention and the Transformer

-convolutional layer at is kinda checking an attention value with a threshold? Kinda if the attention value is less than the threshold, then we set this value to 0 ?Or mb it is just a useful trick to split our huge dxt matrix onto t d-vectors (by using all the kernels equal to 1)? 🤯

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:36:20 - 01:18:02

when my favorite song starts playing on the radioThank you Alfredo Sir, I now know how transformers and self attention workVery grateful to you - Week 12 – Practicum: Attention and the Transformer

when my favorite song starts playing on the radioThank you Alfredo Sir, I now know how transformers and self attention workVery grateful to you

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:47:25 - 01:18:02

– Q&A - Week 12 – Practicum: Attention and the Transformer

– Q&A

Week 12 – Practicum: Attention and the Transformer

2020年07月12日　

00:54:00 - 01:18:02

00:00:01 - 00:00:05：オーケーオーケーオーケー今日は 00:00:05 - 00:00:10：画面を共有しますオーケーオーケーオーケースクリーン 00:00:10 - 00:00:15：ブームこれで大丈夫 00:00:15 - 00:00:17：です深層学習の基礎 00:00:17 - 00:00:19：それは私です Twitterでフォローし 00:00:19 - 00:00:23：てくださいええもちろんオーケー今日は 00:00:23 - 00:00:26：注意と 00:00:26 - 00:00:28：具体的には、2 種類の 00:00:28 - 00:00:31：注意があります。自己注意または 00:00:31 - 00:00:33：相互注意があります。 00:00:33 - 00:00:37：また、ハート注意またはソフト 00:00:37 - 00:00:41：注意もありますが、一般的に 00:00:41 - 00:00:42：、注意について話すときは 00:00:42 - 00:00:45：セットの扱いについて話します。 00:00:45 - 00:00:49：小さなプレビューを提供します 00:00:49 - 00:00:51：トランスフォーマーは 00:00:51 - 00:00:54：注意モジュールで構成されていますトランスフォーマーは 00:00:54 - 00:00:57：、Maps セットからセットになるものになります 00:00:57 - 00:00:59：彼らは実際にはシーケンスを処理しません彼らはシーケンス 00:00:59 - 00:01:01：を書くことができますシーケンスは順序セットと考えることができます 00:01:01 - 00:01:04：が、 00:01:04 - 00:01:08：必ずしも必要ではありません注文シーケンス 00:01:08 - 00:01:10：を作成するのは非常にクールな部分ですよし、 00:01:10 - 00:01:14：始めましょう 00:01:14 - 00:01:17：まずは自分自身に注意を向けることから始めましょう。 00:01:21 - 00:01:25：スクリプト I with I は 00:01:25 - 00:01:28： 1 から T に移動するので、このセットには T 個の異なる 00:01:28 - 00:01:32：要素があります X 1 X 2 何とか 00:01:32 - 00:01:37：何とか XT これ 00:01:37 - 00:01:39：で、これら 00:01:39 - 00:01:42：のそれぞれについて考えること 00:01:42 - 00:01:45：ができますこれは n 00:01:45 - 00:01:49：次元のベクトルのようなものなので、 00:01:49 - 00:01:52：この自己注意にあるのは、私の H 私の 00:01:52 - 00:01:56：隠れた表現が 00:01:56 - 00:01:59：これらのベクトルの線形結合になるという 00:01:59 - 00:02:03：ことだけです。 00:02:06 - 00:02:09： 4番目のクラスでは、このベクトルの線形結合における権利の簡単な表記法などの簡単な方法をどのように行うことができるかを示すと思います. 00:02:18 - 00:02:21：行列の乗算を使用するだけな 00:02:21 - 00:02:24：ので、TであるこのXのセットは 00:02:24 - 00:02:28：次元nに存在することができます. 00:02:34 - 00:02:38：これらの人の高さがnで、T列が 00:02:38 - 00:02:41：右にあるため、n行のピンクのマトリックス大文字Xと考えられます。これは、 00:02:41 - 00:02:44：基本的 00:02:44 - 00:02:47：にこれらのベクトルの水平スタックのスタックであると考えることができます。これが私のセットです 00:02:47 - 00:02:50：の再びあなたは今注文を持っている 00:02:50 - 00:02:53：ので、この隠された表現 00:02:53 - 00:02:57：は、行列 x 00:02:57 - 00:03:00：にこれらのアルファのベクトルを 00:03:00 - 00:03:04：掛けたものとして書くことができます。 00:03:08 - 00:03:13： X 行列に a を掛けたものです。 00:03:13 - 00:03:14：通常、隠れた表現について考えると、少しファンキーです。通常 00:03:18 - 00:03:23：、重み行列を使用して入力を右に回転させますが 00:03:23 - 00:03:27：、この場合は、これ 00:03:27 - 00:03:29：は注意の回転なので、そうではあり 00:03:29 - 00:03:31：ません。私はそのように考えることができない 00:03:35 - 00:03:38：ので、X範囲のこれらの列の線形結合を知っているので、これらのXの線形 00:03:38 - 00:03:42：結合はクールなので 00:03:42 - 00:03:44：、維持するために右上に書くことができるので、これについて考えるのが好きです 00:03:52 - 00:03:55：これらの a ベクトルのゼロノルムが 00:03:55 - 00:03:58： 1 に等しく、非ゼロ項も 1 に等しいと課せば、 00:03:58 - 00:04:01：今のメモリでは、ハードアテンションについて考えることができます。 00:04:04 - 00:04:07：これらの x を掛けます 00:04:07 - 00:04:10： 1つのホットベクトルを選択できます 00:04:10 - 00:04:13： .1がどこにある 00:04:13 - 00:04:14：かは特定の列になります.その 00:04:14 - 00:04:18：ため、aの2番目の要素が 00:04:18 - 00:04:20： 1に等しく、0で 00:04:20 - 00:04:25：ある大文字のX時間を乗算すると他のすべてがゼロになる場合. 00:04:25 - 00:04:27： 1 またはそれ以降またはその他は 00:04:27 - 00:04:30：ゼロです列 00:04:30 - 00:04:33： 2 番目の列を右に取得 00:04:33 - 00:04:37：するように調整できます。これで、これがどのように機能する 00:04:44 - 00:04:47：かがわかります私たち 00:04:47 - 00:04:51：がハート・アテンションについて話しているとき、ソフト・アテンションのソフト・ 00:04:51 - 00:04:52：アテンションである別のアテンションを持つこともできます。 00:04:55 - 00:04:58：代わりに制約は 00:04:58 - 00:05:01：、これらの要素をすべて 00:05:01 - 00:05:03：アルファで合計すると、1つに合計しなければならない 00:05:03 - 00:05:05：ということです。それが違いです。 00:05:05 - 00:05:07：この場合、H は 00:05:07 - 00:05:10：これらのディナーの組み合わせです 00:05:10 - 00:05:13：行列の大文字 X の列 00:05:13 - 00:05:17：これまでのところ雨が降る可能性があります何も問題あり 00:05:17 - 00:05:21：ません大丈夫なので 2 番目の部分の 00:05:21 - 00:05:25：注意 2 00:05:25 - 00:05:26：これらの a がどこから来 00:05:26 - 00:05:30：ているかを把握するため、この場合、あなたが把握できるように、a as I 00:05:33 - 00:05:37：、これらの大文字 X のアーク最大値またはソフトダーク最大値になり、 00:05:40 - 00:05:43：すべての行が 1つのサンプルと次に 00:05:45 - 00:05:48：、行とベクトルの間のスカラー積を計算 00:05:48 - 00:05:51：します最終積のすべての要素をすべての要素 00:05:51 - 00:05:53：がそれぞれのスカラー積になるようにし 00:05:53 - 00:05:58：ますあなたが知っているすべてのベクトルX Iは 00:05:58 - 00:06:01：これらの特定に対して1からTでした X 00:06:01 - 00:06:05：わかりましたが、これまでのところ明らかです 00:06:05 - 00:06:08：ので、ベータが何であるかを説明する前に、ベータは 00:06:08 - 00:06:11：ソフトアークの最大値のパラメータ 00:06:13 - 00:06:16：です。ソフトダークマスがわかっているときはいつでも、温度の逆数を書きます。 00:06:18 - 00:06:20： X と X の内部 00:06:20 - 00:06:24：にはベータがあります。ベータはどこから来るの 00:06:24 - 00:06:26：でしょうか。それは、これらのソフト 00:06:26 - 00:06:28：アークマックスまたは人々がソフトマックスと呼ぶ 00:06:28 - 00:06:31：ものがあるときはいつでも、通常は 00:06:31 - 00:06:33： 1 に設定されているため、表示されません。 00:06:33 - 00:06:36：だから私たちが 00:06:36 - 00:06:43：私の首都Xを見る前にわかりませんわかり 00:06:43 - 00:06:46：ませんまだ話していなかったので、大きな 00:06:46 - 00:06:50： X はこの列のセット Tata Tata Tata で 00:06:50 - 00:06:52：あり、H は 00:06:52 - 00:06:54：これらの列の線形結合になりますが、 00:06:54 - 00:06:56：これらのアルファは右から来てどこから来ているのでしょうか。 00:06:56 - 00:07:00：だから私の与えられたアルファ私の最初のベクトル a は 00:07:04 - 00:07:08： X の基本的にすべての列を知っているので 00:07:08 - 00:07:10：、X のすべての行を意味し、u 00:07:10 - 00:07:11：を X で乗算すると 00:07:11 - 00:07:14：、これら 2 人のスカラー積が 00:07:14 - 00:07:17：得られるので、どれだけ得られるかが分かります。 my X 他の 00:07:17 - 00:07:20：すべての値に対する my X のスカラー積の値は何 00:07:20 - 00:07:25：ですか my set の 1 つおきの X OK 00:07:25 - 00:07:28：は X ですベクトルの列 00:07:28 - 00:07:33：はい X は 1 つのベクトルサイズ 00:07:35 - 00:07:40：ですしたがって、私の角括弧 00:07:40 - 00:07:43：はオプションの引数を表しているので 00:07:43 - 00:07:45：、Arg max を持つことが 00:07:45 - 00:07:49：できるため、1 つのホットな a を取得できます。または、 00:07:54 - 00:07:56：これまでのすべてのコースで使用してきたソフトなアルカマックスがある場合は、次のようになります。古い 00:07:56 - 00:07:58：指数の合計で割った指数を取得する 00:07:59 - 00:08:01：的な権利は、人々 00:08:01 - 00:08:05：がソフトマックスと呼ぶ古典的なもので、通常は大丈夫ですが、 00:08:05 - 00:08:07： Xの権利のセットがあると言ったので、Xのセットを持って 00:08:07 - 00:08:11：いる場合、これら 00:08:11 - 00:08:13：はエイズの権利のセットを持っていることを意味します. 00:08:13 - 00:08:15：すべての X には 00:08:15 - 00:08:19： A があるので、 00:08:19 - 00:08:21：正しいベクトルであるこれらの補助具がたくさんある場合、 00:08:21 - 00:08:23：それらを次々と積み重ねることができます。 00:08:34 - 00:08:38：サイズ T であるため、小文字の a のサイズが T であることが 00:08:38 - 00:08:41：わかります 00:08:41 - 00:08:45：。T が X で正しく転置され、 00:08:45 - 00:08:48： T が正しくスタックされているため 00:08:48 - 00:08:50：です。T X がある 00:08:50 - 00:08:53：ことを願っています。明確で、これまでのところ問題ありません。 00:08:53 - 00:08:56：現時点で何が欠けているかを知って 00:08:56 - 00:08:58：います。欠けているのは次のとおりです。これ 00:08:58 - 00:09:01：で、AIDS のセットが 00:09:01 - 00:09:04：できました。したがって、この右上から見れば、正しい年齢のセットが得られます。 00:09:06 - 00:09:09：あなたが持っているスライド H はこれでした。 00:09:13 - 00:09:16： tal X と a 権利なので、H は 00:09:20 - 00:09:24：私の X マトリックスの権利の列の線形結合でしたが、 00:09:24 - 00:09:26：多くの援助があることを考えると、最終的に 00:09:26 - 00:09:31：多くの年齢の権利になるので、いくつの H が 00:09:31 - 00:09:33： A の権利と同じ数になるかなどです。あなたは 00:09:33 - 00:09:36：これらの大文字の X マトリックスを持って 00:09:36 - 00:09:38：いるでしょう。それは多くの列を持つことになります。 00:09:38 - 00:09:42：申し訳ありませんが、 00:09:42 - 00:09:45：私たちの最後に属するソフトマックス方程式の非常に小さい X 00:09:47 - 00:09:49：です。それは X の列の 1 つです。 00:09:49 - 00:09:52： X を呼び出して、私は a を持っているだろう 00:09:52 - 00:09:54：インデックスを削除する 00:09:54 - 00:09:57：ので、少し乱雑になりませんが、 00:09:57 - 00:10:01： X は T by n です。X 転置 00:10:01 - 00:10:04：は n by T である必要があるため、X は n by n になります。 T 00:10:04 - 00:10:08：グレインああ、X は T による n であり、X は 00:10:08 - 00:10:11：これらすべての列のスタックになり、互いに 3 つのうちの 1 00:10:16 - 00:10:18：つになります。はい、X が行のセットであると考えることができる 2 つのオプションがあることを見ました。 00:10:21 - 00:10:22：これは私が思うに通常はコードで行われます 00:10:22 - 00:10:25：が、数学を書くと、この方法で書き留めるのがはるかに簡単になると思います。 00:10:27 - 00:10:31：また、 00:10:31 - 00:10:33：多くの AIDS があることを考えると 00:10:33 - 00:10:36：、H 行列の多くの列が必要に 00:10:36 - 00:10:40：なるため 00:10:40 - 00:10:43：、これらの H のサブセットである 00:10:43 - 00:10:45：私の大文字 H は次の線形結合になると単純に書くことができます。 00:10:45 - 00:10:49： X のこの要素は、a 00:10:49 - 00:10:51：の最初の 00:10:51 - 00:10:53：列と 3 番目の列の 2 番目の列のよう 00:10:53 - 00:10:57：な要素を使用する 00:10:57 - 00:11:00：ので、基本的 00:11:00 - 00:11:05：にこの X のセットのコンポーネントを混合 00:11:05 - 00:11:07：し、行列として表すことができます。 00:11:12 - 00:11:15：ソフトargh maxのArg maxを使用して計算されるこれらの係数を使用して、 00:11:15 - 00:11:18：内部の各コンポーネントをここでスコアと呼ぶことができます。 00:11:25 - 00:11:30：これは、私のexeのすべてのセットに対するXを指定した1の単純なスカラー積です。 00:11:30 - 00:11:34：講義の最初の部分は、ここまで明確にする必要があり 00:11:34 - 00:11:36：ます。それ以外の場合は先に進む 00:11:36 - 00:11:40：ことができるので、これまでのところ明確ですか、それとも 00:11:40 - 00:11:43：説明されていませんか?最初の式 00:11:43 - 00:11:46：は、ソフト Arg max とは何か、 00:11:46 - 00:11:51：大きな卵と卵の乗算を評価するもの 00:11:51 - 00:11:54：です。前のスライドでは、基本的には 00:11:54 - 00:11:56：ここに 1 行しかない 00:11:56 - 00:11:59：と言っただけで、隠し 00:12:01 - 00:12:05：はこれらの X の右の線形結合になると言いますはい、これは 00:12:05 - 00:12:10：組み合わせで 00:12:10 - 00:12:13：、このベクトルに含まれるこれらのアルファを使用していますはい、そうです 00:12:13 - 00:12:15：私はこれをここに書いたので、H は X 00:12:15 - 00:12:17：の列の線形結合になり 00:12:17 - 00:12:20：、X の列 00:12:20 - 00:12:23：は私のセットの要素に 00:12:26 - 00:12:29：なります。 a を計算する方法はわかりまし 00:12:29 - 00:12:33：た。ここで 1 a を計算するには、ここで a を計算し 00:12:33 - 00:12:37：ます。これは、 00:12:37 - 00:12:40：たとえばソフトダークマックスになります。これは、再び 00:12:40 - 00:12:44：人々が何のソフトマックスと呼ぶかということです。 00:12:47 - 00:12:50：これらの X 00:12:50 - 00:12:52：転置 X 転置は、 00:12:52 - 00:12:56：これらすべての X を行に正しく配置するので、これを右に描画させてください 00:12:56 - 00:12:59：。X 転置は 00:12:59 - 00:13:02：、最初の単純な 2 番目のガイと 3 番目のガイのように 00:13:02 - 00:13:04：なります。次に 00:13:04 - 00:13:07：、ここの私のガイに対してこれを行います。行列を実行する 00:13:07 - 00:13:09：場合ベクトル乗算もみ t 00:13:09 - 00:13:11：アイテムは 00:13:11 - 00:13:14：、最初の男が自分に対して 00:13:14 - 00:13:17：、次に 2 番目の男が自分に対して 00:13:17 - 00:13:20：、3 番目の男が自分に対して、この色のスカラー積になります。 00:13:20 - 00:13:22：たとえば、3 つの 00:13:22 - 00:13:24：スコアが得られます。 00:13:24 - 00:13:28：どれだけ一致しているかがわかります。基本的に、あなたのベクトルは 00:13:28 - 00:13:31：私のセットの3つのアイテムに関連して 00:13:31 - 00:13:33：おり、次にソフトArg max rightの周りにある 00:13:33 - 00:13:36：ので、これらの3つの値を 00:13:36 - 00:13:39：取得します。最後に1つの値、2番目の 00:13:39 - 00:13:42：値、2番目の値、最後の3番目の値は 00:13:42 - 00:13:47：合計して1になりますはい私はそれについて話しますが、 00:13:47 - 00:13:50：それは確かではありません。あなた 00:13:53 - 00:13:54：は、何とか何とか何とかの指数を持っているソフト計算最大値を持つ 00:13:54 - 00:13:57：ことができるか、アーク最大値を正しく得ることができ、 00:13:57 - 00:13:59：基本的にベータ 00:13:59 - 00:14:03：を非常に大きなものに送信しています値が正しいので、 00:14:03 - 00:14:05：ターゲットの最大値を単純に書き留め 00:14:05 - 00:14:07：てベータを大きくすることができます 00:14:07 - 00:14:15：なぜこれが R T のベクトルであり、ライン 00:14:15 - 00:14:17：上で yes の軍隊を定義しているの 00:14:17 - 00:14:25：ですか？ 00:14:25 - 00:14:28：私のX 00:14:38 - 00:14:42：大丈夫ですか d この長さここではこれは N 00:14:42 - 00:14:55：になり、これは T になるので、T 00:14:55 - 00:15:02：回この男を実行すると、右でもある右 00:15:02 - 00:15:04：の急勾配のベクトルが得られます。 00:15:15 - 00:15:17：アークマックスを使用するとワンホットになるか、 00:15:17 - 00:15:20：このソフトダークマックスライトを使用すると、よりソフトなバージョンになる可能性があります。 00:15:20 - 00:15:22：これは、マトリックスをベクトルで乗算する 00:15:22 - 00:15:29：ときに、X を X 素数の合計で割ったもの 00:17:48 - 00:17:50：です。 00:15:31 - 00:15:34：ベクトルを取得するので 00:15:34 - 00:15:38：、スケーラーを取得する必要があるアーム R max を使用している 00:15:38 - 00:15:40：場合、Arg max は 00:15:40 - 00:15:43：、ベクトルに対応する 1 つのホットベクトルのようなインデックスリングを提供します。 00:15:47 - 00:15:49：アートマスアートマックスについて考えることができます。は 00:15:49 - 00:15:51：、あなたが最大値を持ち、残りはすべて 0 になるようなものをあなたに与えています。はい 00:15:51 - 00:15:54：、それは 00:15:54 - 00:16:02：理にかなってい 00:16:02 - 00:16:07：ますか?そうそう、3 7 9 のようにアーク最大のベクトルにある 00:16:07 - 00:16:11：場合、0 0 を与えることができます 1 0 00:16:11 - 00:16:13：いいえ、最大値の位置にあるものを提供します。 00:16:18 - 00:16:22：大丈夫です。ベータスカイラーです。今すぐ 00:16:22 - 00:16:24：できます。インクは 1 に等しいということ 00:16:24 - 00:16:26：はここでは必要ありませんああ、これは 00:16:26 - 00:16:28：今は少し追加の認証で大丈夫 00:16:28 - 00:16:32：です私たちの X 用語です 00:16:32 - 00:16:36：これらは私たちのような入力を表す 1 つのホットベクトルです 00:16:36 - 00:16:41： X 目は 00:16:41 - 00:16:45：申し訳ありません X 目は私の入力だけ 00:16:45 - 00:16:48：が1つホットである必要はあり 00:16:48 - 00:16:50：ませんが、それらが単語を表しているかどうかである可能性があります。 00:16:50 - 00:16:54：通常、 00:16:54 - 00:16:55：それらは埋め込みであるため、実際には 00:16:55 - 00:16:59：密集しているため、大丈夫だとは思いません 00:16:59 - 00:17:03： .XによるX転置というのはその種 00:17:03 - 00:17:06：の掛け算であり、それ 00:17:06 - 00:17:10：は OK 間の類似性を 00:17:10 - 00:17:13：決定するものであり、これは X のセットの各要素がどの程度類似しているかを決定するものであり 00:17:13 - 00:17:17：、それは私の X に似ている 00:17:17 - 00:17:21：ので、これはここにいるこれらすべての人がこの男に関してどのように類似しているかを教えてくれます 00:17:29 - 00:17:30：これは最初の部分だったので、次に 00:17:30 - 00:17:33：進み、これらがどのように 00:17:33 - 00:17:43：改善され、拡張さ 00:17:43 - 00:17:46：れるかを見てみましょう。ここで、キーと値のストアの定義があります。 00:17:46 - 00:17:48：これは、データ構造に関するもの 00:17:50 - 00:17:52： dのビット定義は正しいので、これは 00:17:52 - 00:17:56：保存保存のパラダイムです Aquarionの取得 00:17:56 - 00:17:59：または連想配列または 00:17:59 - 00:18:01：辞書またはハッシュテーブルの管理それは 00:18:01 - 00:18:04：どういう意味ですか.たとえば 00:18:08 - 00:18:10：、ビデオをチェックしたいとしましょう. 00:18:10 - 00:18:15： YouTube でラザニアを作る方法わかりましたので YouTube に 00:18:15 - 00:18:17：行きます 00:18:17 - 00:18:20： Enter キーを押したものは何でも lasagna lasagna と書くので、 00:18:20 - 00:18:22：クエリがあり、クエリはデータセット 00:18:22 - 00:18:25：内のすべての可能なキーに対してチェック 00:18:25 - 00:18:27：され、キーは次のように 00:18:27 - 00:18:30：なります。ビデオのタイトルまたは 00:18:30 - 00:18:32：説明の権利を取得するため、YouTube データセットで利用可能な 00:18:32 - 00:18:35：すべてのタイトルに対して行がどのようにクエリであるかを確認します。 00:18:41 - 00:18:45：一致する最大スコアを見つけたら、そのスコアを取得できます。 00:18:45 - 00:18:46：最大 00:18:46 - 00:18:49： 1 つのビデオを取得するだけです。それ以外の場合は、 00:18:49 - 00:18:51：これらのソフトアーク最大を実行すると、基本 00:18:51 - 00:18:54：的に確率分布を正しく 00:18:54 - 00:18:56：取得でき、次に正しい順序で 00:18:56 - 00:18:59：取得できます。最初に最も整列したものを取得できます。 00:19:04 - 00:19:07：関連性の低いビデオのシーケンスを持つことができることを知っているビデオは正しいので、 00:19:07 - 00:19:11：これまでのところ、このキー値ストアの 00:19:11 - 00:19:13：パラダイムが 00:19:13 - 00:19:16：何であるかについて明確 00:19:16 - 00:19:19：ですか? キーを使用する 00:19:19 - 00:19:22：と、クエリに対してキーがどのように一致しているかを確認できます。 00:19:22 - 00:19:25：次に、 00:19:25 - 00:19:29：これらすべてのビデオ、すべての値、 00:19:29 - 00:19:32：すべてのコンテンツを取得します。 00:19:34 - 00:19:37：この場合、ここでまったく同じことを行います。 00:19:37 - 00:19:39：私たちがこれまで見てきたことを少し専門化し 00:19:39 - 00:19:42：ます。これはかなり些細なことです。 00:19:42 - 00:19:46：ここでのキー 00:19:46 - 00:19:48：はビデオのタイトルになります。そうです 00:19:48 - 00:19:50：、キーは YouTube のすべての 00:19:50 - 00:19:53：ビデオのタイトルです。ラザニアのクエリは 1 つです。 00:19:54 - 00:19:58：ラザニアを調理して 00:19:58 - 00:20:01：ください。すべてのキーに対してこの質問をチェックします。 00:20:01 - 00:20:05：次に、アートマックスを知っていることがわかっ 00:20:05 - 00:20:07：たら、最高のインデックスを見つけ 00:20:09 - 00:20:11：ます。ソフトダークマックスを行うと、それを正しく取得するか、もう一度取得します。 00:20:11 - 00:20:13：プロバビみたいになるたとえば、確率でソートできるようになっ 00:20:13 - 00:20:17：たので、 00:20:17 - 00:20:21：キーと値のクエリ 00:20:21 - 00:20:24：ができました。これらは 00:20:24 - 00:20:31：、特定の入力 X をすべて回転させるだけなので、Q 00:20:31 - 00:20:34：はここで X を取得し、 00:20:34 - 00:20:37： W Q で回転させます。私のキーは 00:20:38 - 00:20:41：再び私の X になります K の W だけ回転させた後 00:20:41 - 00:20:44：、V の値を取得しました。申し訳ありませんが 00:20:44 - 00:20:49：、X を WV だけ回転さ 00:20:52 - 00:20:55：せます。どうすればもっとうまく追加できるかを知ることができます. 00:20:55 - 00:20:58：最終的にいくつかの 00:20:58 - 00:21:00：トレーニングパラメーターを正しく追加し 00:21:02 - 00:21:05：ます.これまでのところ、トレーニングボードのパラメーターは 00:21:05 - 00:21:11：ありませんでした.ラザニアのメタファーでは、DはXに 00:21:11 - 00:21:15：なります. 私はとてもお腹が空い 00:21:19 - 00:21:24：ていて、食べ物をうまく仕上げる方法についていくつか質問を書き込もうとしましたが、料理の 00:21:24 - 00:21:27：仕方も知っているので、 00:21:27 - 00:21:29：すべて大丈夫であることを確認することもでき 00:58:31 - 00:58:34：ます。 00:21:32 - 00:21:34：「おなかがすいていて、それは 00:21:34 - 00:21:37：私のハック X になるので、私のクエリ 00:21:37 - 00:21:39：は私が見つけることができる最高のレシピそして、 00:21:39 - 00:21:42：私は自分の 00:21:42 - 00:21:46：頭の中ですべての可能なラザニアのレシピを自分の記憶にチェックインすることができます 00:21:46 - 00:21:49：私は母の料理本をすべて持っているので、 00:21:49 - 00:21:50：確認することができますチェックチェックチェックチェックそして 00:21:50 - 00:21:53：、祖母のラザニアを見た後 00:21:53 - 00:21:55：、レシピを取得しました私のおばあさんから、 00:21:55 - 00:22:00：あなたは素晴らしいことを知っています 00:22:00 - 00:22:02：ね。お腹 00:22:02 - 00:22:05：が空いたので、ここで非線形性を追加しない理由があり 00:22:05 - 00:22:07：ます。そうそう、これは 00:22:07 - 00:22:13：単にこれらの注意 00:22:15 - 00:22:17：事項です。完全に向きに基づいています。 00:22:17 - 00:22:19：これらのベクトルの向きこれが 00:22:19 - 00:22:22：注意の働き方です非線形性は好きではありません 00:22:22 - 00:22:24：唯一の非線形性は 00:22:24 - 00:22:26：、分布を正しく知っている確率を取得しようとするときはいつでもです 00:22:29 - 00:22:31：ダークマックスは理にかなって 00:22:31 - 00:22:34：います大丈夫ですオンボードなので、 00:22:34 - 00:22:36：最初にこれらの学習パラメーターを導入して、 00:22:38 - 00:22:41：適切な機械学習をトレーニングできる 00:22:41 - 00:22:46：ようにします。よし、Q と K は同じ 00:22:46 - 00:22:48：長さ、同じ次元で 00:22:48 - 00:22:51：ある必要があります。 nna 1 つのクエリ 1 つの質問をチェックして、タイトルの 00:22:51 - 00:22:53：すべての可能な表現に対してラザニアを正しく作成する方法を確認してください。 00:22:57 - 00:22:59：同じ長さでなければなりません。そうしないと 00:22:59 - 00:23:01：、向きを正しく確認できないため 00:23:02 - 00:23:06：、同じスペース V にある必要があります。 00:23:06 - 00:23:08：は私のレシピの内容です長さは気にしません私のレシピの 00:23:08 - 00:23:11： 5 ページを知っているかもしれませんそれは 00:23:14 - 00:23:17：あなたが知っているだけですそれはレシピ全体 00:23:17 - 00:23:20：です私の場合 V は巨大で 00:23:20 - 00:23:22：キーは質問 00:23:22 - 00:23:24：の表現のサイズに一致するタイトルの 00:23:26 - 00:23:30：クールにあなたが知っていることを単純に 00:23:30 - 00:23:32：して下に曲げましょう今言ったすべてを下に曲げ 00:23:40 - 00:23:43：てくださいシーケンスを持っているシーケンスが正しいことを知っていて、 00:23:43 - 00:23:45：私が間違っていれば 00:23:45 - 00:23:47：、X のセットを持っているので、X のセットがあるとすれば 00:23:50 - 00:23:53：、クエリのセットを取得し、キーのセットとセットを取得します。 00:23:57 - 00:23:59：あなたが想像できるように、名前付きの値とはい一度に開始されたすべてのケース 00:24:02 - 00:24:05：がダウンし、すべての値がダウンしているすべてのキューのすべての列にスタックしていることを知っているマトリックスを取得します。バンバンバンバンです 00:24:05 - 00:24:07：から、 00:24:09 - 00:24:11：列の数は T 00:24:11 - 00:24:13：列です。あなたはTベクトルを右に貼り付けました。 00:24:13 - 00:24:15：ベクトルの高さは何 00:24:16 - 00:24:19：ですか。ちょうどすぐにmmmと言った 00:24:19 - 00:24:23：ので、次は何ですか。 00:24:23 - 00:24:26：私のa 00:24:26 - 00:24:30：はhaの弧の最大値を超えるこれらのソフトダーク最大値である 00:24:30 - 00:24:33：と言いました。 00:24:33 - 00:24:37：これらすべてのキーに対して正しいクエリを行うので 00:24:37 - 00:24:40：、最初に K を傾けて、Rose が正しくタンタンタンタンになるようにします。 00:24:40 - 00:24:43：次に、最初の 00:24:43 - 00:24:45：行に最初のキーを 4 倍し、クエリの 00:24:45 - 00:24:47： 2 番目のキーに K を掛け 00:24:50 - 00:24:53：私が持っている多くの行 T 小文字の T が正しい 00:24:53 - 00:24:56：ので、最後に T スコアが 00:24:56 - 00:24:58：あり、ソフトダーク最大値を計算すると、 00:24:58 - 00:25:01：正しい確率が得られ 00:25:01 - 00:25:05：ますうーん、それは理にかなっていると思いますそれは 00:25:05 - 00:25:07：私にとって理にかなっています 00:25:12 - 00:25:17：時間のは Q と K の違いです 00:25:17 - 00:25:20：わかりました彼はレシピレシピ本のタイトルであるキーを表しています 00:25:24 - 00:25:26：そうです q は私の質問になるでしょう私はラザニアを作りたいので、 00:25:29 - 00:25:32：ピザの作り方のようにレシピ本のすべてのタイトルをチェックします 00:25:32 - 00:25:35：パスタの作り方ラビオリの 00:25:35 - 00:25:37：作り方トルテリーニの作り方パルピットの作り方 00:25:37 - 00:25:39：トニーの作り方ラザニアの作り方ほら 00:25:39 - 00:25:42：、ハイスコアを出して、それを取得する 00:25:52 - 00:25:54：、K と V も 00:25:54 - 00:26:01： X から派生している理由がわかりません。値があるので 00:26:01 - 00:26:04：、アナログ II では V はビデオになるので 00:26:04 - 00:26:07：、なぜそれを yes から派生させる 00:26:07 - 00:26:09：のでしょうか。それはあなたが完全に正しいと言っています。 00:26:09 - 00:26:12：次のスライドですが、これは 00:26:12 - 00:26:13：セルフ・アテンションと呼ばれるものなので、あなたは 00:26:13 - 00:26:17：実際にふりかえりの作業 00:26:17 - 00:26:19：をしているのです。あなたは実際に頭の中で考えているのです。 00:26:25 - 00:26:28：私のレシピを持っている 00:26:28 - 00:26:30：ので、すべてが私の彼です広告 00:26:30 - 00:26:32：と私の頭がXであるとすれば 00:26:32 - 00:26:35：、頭から出てくる3つのことだけがあり、 00:26:35 - 00:26:37：これは自己注意と呼ばれ 00:26:43 - 00:26:45：ます。質問 00:26:45 - 00:26:47：はあなたの元またはあなたの脳から来ます 00:26:47 - 00:26:49：が、キーと値 00:26:49 - 00:26:51：は本から正しく来るので、キーと値 00:26:51 - 00:26:53：は別の場所で取得し 00:26:53 - 00:26:54：、クロスアテンションが 00:26:54 - 00:26:57：正しくあり、すべてに対してクエリをチェックします 00:26:58 - 00:27:00：それらの子供たちと彼らはあなたが 00:27:00 - 00:27:04：最後のものの3つです。 00:27:04 - 00:27:07：次は 00:27:07 - 00:27:10：、隠れ層がこれらのVの既知の線形結合になると言ったという事実です。 00:27:13 - 00:27:16：これらのV列は 00:27:16 - 00:27:19：、私の行列を再び作成しています 00:27:19 - 00:27:22：私の中にあるこれらの係数アルファによって重み付けされている 00:27:22 - 00:27:25：ので、これは前に見たものとまったく同じですが、 00:27:32 - 00:27:36：常に X を使用する代わりに、特殊化されたさらに特殊化されたものを指定しただけで、 00:27:36 - 00:27:38： X 転置を知っています。 00:27:38 - 00:27:40： nd 値正しいクエリキー 00:27:40 - 00:27:42：クエリ片側でキークエリ 00:27:42 - 00:27:46：反対側でアルフレッド 00:27:46 - 00:27:49：昨日講義して 00:27:49 - 00:27:52：ラカン教授はキュリーのように 1 つしかないと言い 00:27:57 - 00:28:01：ます 1x にはキュリーが 1 つしかないことを意味します 00:28:01 - 00:28:05：私は 1qi 現在の 1x I が好きですが 00:28:05 - 00:28:08：、他のすべてのキーと正しく相互作用する 00:28:08 - 00:28:11：必要がある 00:28:11 - 00:28:13：ので、それで問題ありませんでした思い出させてくれてありがとう 00:28:13 - 00:28:15：これがこの行のポイントです最後の行ここに表示し 00:28:15 - 00:28:18：ます 1 つの Q に 1 つの Q があります。これは 00:28:18 - 00:28:20：ラザニアの作り方の 1 つの質問です。 00:28:20 - 00:28:22：これらが本のすべてのタイトルとどのように一致するかを確認します。 00:28:22 - 00:28:25：したがって、1 つの質問 00:28:25 - 00:28:27：ですべてのタイトル 00:28:27 - 00:28:30：を調べて、正しい場所を見つけるために Tata Tata ton 00:28:30 - 00:28:32：タイトルは正しい 00:28:32 - 00:28:34：です。ラザニアの 00:28:34 - 00:28:36：作り方と、ピザの作り方を確認してください。 00:28:36 - 00:28:38：パスタの作り方。トルテリーニの作り方。 00:28:38 - 00:28:41：説教壇の作り方。実際に一致する名前を検索し 00:28:43 - 00:28:44：てください。 00:28:44 - 00:28:46：私たちの多くのキーを確認して 00:28:46 - 00:28:49：から、一致するものの値を取得する 00:28:49 - 00:28:52：か、実際に2つのハイ 00:28:52 - 00:28:56：スコアがある場合は、レシピの混合物を正しく作成できますが、 00:28:59 - 00:29:06：その補間がどれだけうまく機能するかわかりません 00:29:06 - 00:29:09：誰か前に2つのレシピで話していた 00:29:09 - 00:29:13：ので、ラザニアの作り方を確認してから 00:29:13 - 00:29:17：、私の本 00:29:17 - 00:29:20：で最後にeが付いた 00:29:20 - 00:29:22：ラザニアがあり、非常に似ている他のことを知らない 00:29:22 - 00:29:25：ので、おそらくその言葉が 00:29:25 - 00:29:27：あなたが探しているか、 00:29:27 - 00:29:29：別の言葉を考えさせてください.たとえば、私はピザを作りたいとし 00:29:29 - 00:29:31：ますが 00:29:31 - 00:29:33：、チキンピザと呼ばれる別のレシピがあります. 00:29:33 - 00:29:36：アッラーとアッラーはピザ 00:29:36 - 00:29:38：と似ていますが、ピザと似ていますが、私が 00:29:38 - 00:29:40：探している場合ピザもピザアッラー 00:29:40 - 00:29:44：の方が一致するスコアが高くなる 00:29:44 - 00:29:46：ので、アートマックスを使用してピザを作成 00:29:49 - 00:29:50：すると、ソフトダークマックスを使用すると問題なく動作します。 00:29:50 - 00:29:52：ピザとピザ 00:29:52 - 00:29:55：アッラーの組み合わせが得られるからです。彼らは似ているので、あなたは 00:29:55 - 00:29:57：行きます nnaは、質量確率質量カメオを知って 00:29:57 - 00:30:00：いるので、他の人 00:30:00 - 00:30:02：で値を取得すると、値 00:30:06 - 00:30:08：これらの係数を掛けたものを使用してこれらの列の線形結合になるため 00:30:08 - 00:30:11：、1つのホットがある場合は 00:30:11 - 00:30:13： 1 つの値だけを取得しますが、 00:30:13 - 00:30:16：複数の既知の値が 00:30:16 - 00:30:18：ある場合は、ソフトダークマックスのように、 00:30:18 - 00:30:20：複数の値が混合されることを知っている可能性があります。 00:30:26 - 00:30:29：値が高いと言うと、 00:30:29 - 00:30:32：ピザとヨーラですが、ここでは私のキュリー 00:30:32 - 00:30:35： Q は 1 つしかないため、Q はピザ 00:30:35 - 00:30:38：になりますが、キー内 00:30:38 - 00:30:41：にはピザとピザヨーラの 2 つのレシピが 00:30:41 - 00:30:43：あり、これら 2 つは非常に似ているため、 00:30:43 - 00:30:46：両方ともスコアはどういうわけか 00:30:46 - 00:30:49：似ているので、ソフトアークマックスを行うときはいつでも、 00:30:51 - 00:30:53：非常に高いスコアが1つだけ得られるわけではありません。おそらく、ハイスコアが得られ 00:30:53 - 00:30:56：、次に別のハイスコアが得 00:30:56 - 00:30:57：られるため、H 00:30:57 - 00:30:58：はこれらのレシピの線形結合になり 00:30:58 - 00:31:01：ます。 es はピザとピザの平均のようになります。Ola 00:31:04 - 00:31:06：は大丈夫です。ええ、本当に理にかなっ 00:31:07 - 00:31:12：ています。もちろん、別の質問がありました。大丈夫です。先に進む必要がある 00:41:00 - 00:41:02：かもしれません。 00:31:13 - 00:31:18：残り 15 分 00:31:18 - 00:31:22：です。私たちは T Q の権利を 00:31:22 - 00:31:24：持っていますか?私たちは多くのキルを持っているので、すべてが保持 00:31:25 - 00:31:30：ので、ベータベータとは何ですか? 00:31:30 - 00:31:33： D の平方根を超える 1 に設定したい 00:31:33 - 00:31:36：理由は、1 次元ですべてが 1 のベクトルがある場合 00:31:36 - 00:31:39：、 1 のベクトル 00:31:39 - 00:31:43：は 2 次元の 1 00:31:43 - 00:31:45：ですすべての座標で 00:31:45 - 00:31:48：あるベクトル 1 は 2 の平方根になり 00:31:48 - 00:31:50：ますすべての成分を含むベクトル 1 は 3 00:31:51 - 00:31:55：の 3 の平方根になります 00:31:55 - 00:31:57：コンポーネントはその平方根になる可能性がある 00:31:57 - 00:32:00：ため、D次元のベクトル 00:32:00 - 00:32:02：は、大きさが 00:32:02 - 00:32:04：次元数の平方根とともに増加 00:32:04 - 00:32:07：するため、 00:32:07 - 00:32:10：これらのソフトアーク最大の温度を一定に保つために、 00:32:10 - 00:32:12：分割したい四角いロで 00:32:12 - 00:32:14：次元数の ot もまた、T がいくつのクエリを持っているかを 00:32:14 - 00:32:18：再度取得しなければ、専門性は問題ではありません。 01:09:45 - 01:09:47：したがって、 00:32:20 - 00:32:25： T AIDS を正しく取得できます。したがって 00:32:25 - 00:32:28：、行列の大文字 a を取得するので、最終的には a を取得することになります。 00:32:28 - 00:32:30：大きな H は、単に 00:32:30 - 00:32:33：これらの値をこのマトリックスで乗算したもので 00:32:33 - 00:32:36：あり、列が混合コンポーネントになる場所を知っています。 00:32:40 - 00:32:44：クロスアテンションについてはほとんど 00:32:47 - 00:32:50：同じでした。キューと同じ次元のケアの理由を正確に言うことができますが、 00:32:50 - 00:32:53： V は彼らの友人ですキーと 00:32:53 - 00:32:56： V K と V は同じ次元であると予想 00:32:56 - 00:32:58：しますが、Q は別のものです 00:32:58 - 00:33:01： V は私のピザのレシピに 00:33:01 - 00:33:03：なります 10 ページの長さになるでしょうああ、いや 00:33:03 - 00:33:07： Q と K の代わりに 1 ページの長さにすることはできません 00:33:07 - 00:33:10：質問とタイトルは一致する必要 00:33:11 - 00:33:13：があります。比較するように比較するためです。一致とは何かを比較し 00:33:13 - 00:33:17：ます。これら2つがどのように一致しているかを知っています。 00:33:17 - 00:33:20：これは、 00:33:20 - 00:33:24：ここにあるこのことから来ているので、クエリをチェックするたびに 00:33:27 - 00:33:30：私がするすべてのキーロール時間ベクトルとそれらは 00:33:30 - 00:33:32：同じサイズで同じ 00:33:32 - 00:33:34：長さでなければなりません。そうしないと乗算できません。 00:33:37 - 00:33:40：これらすべてのキーに対して質問をチェックすると、スポーツを取得できることがわかります 00:33:44 - 00:33:46： YouTube 動画全体でも、肉料理でも 00:33:49 - 00:33:53：構いません 00:34:04 - 00:34:07：比較できますか? 00:34:07 - 00:34:10：すべての Q と K と D を 1 00:34:10 - 00:34:14：回の反復で 1 秒 1 秒で計算できます。 00:34:14 - 00:34:16：空想的なことは何もありません Ryan 00:34:16 - 00:34:18： RNN について以前に同じことをしたこと 00:34:21 - 00:34:23：あります。 00:34:23 - 00:34:25：右上の W 統治のバージョンは 00:34:25 - 00:34:29：大丈夫ですので、派手な 00:34:29 - 00:34:33：ものは何もありません。ヘッドと呼ばれるものがあるので、 00:34:33 - 00:34:36：これは 1 つのヘッドを表すこと 00:34:36 - 00:34:38：ができますが、たとえば H ヘッドのように複数のヘッドがある 00:34:38 - 00:34:43：場合があるので、h ヘッドがある場合は行きます nna には h qs が 00:34:43 - 00:34:47：あり、私には age ケースがあります H B 00:34:47 - 00:34:49：を使用するので、最終 00:34:49 - 00:34:51：的には H 倍の高さになることに 00:34:51 - 00:34:53：なりますが、それでも次の場合はどの次元にも戻すことができます 00:34:56 - 00:34:59：最後にこの大きな男を乗算します。この最終的な 00:34:59 - 00:35:01：大きなベクトルは 00:35:01 - 00:35:03：、最後に右の B のベクトルになります。 00:35:03 - 00:35:05：行列を掛けて、 00:35:05 - 00:35:09： D のこのサイズに戻すことができます。これは、これを実装する可能な方法です。 00:35:09 - 00:35:12：正しいことですが、 00:35:12 - 00:35:15：詳細は重要ではありませんので、 00:35:15 - 00:35:17：最終的にこのトランスフォーマーについて説明しましょう。このトランスフォーマーは一体何なのか、 00:35:20 - 00:35:22：このトランスフォーマーは 00:35:22 - 00:35:24： 2 つのブロックで構成 00:35:24 - 00:35:26：されています。エンコーダーとデコーダーで構成されています。 00:35:31 - 00:35:34：用務員のアウトエンコーダーの右にあるので、アウトエンコーダーの復習 00:35:34 - 00:35:36：右にある 00:35:39 - 00:35:40：、今日は左側 00:35:40 - 00:35:42：の図がありました。右側のダイアグラムに焦点を当て 00:35:42 - 00:35:43：ます。2 つのブロックがあります。 00:35:43 - 00:35:47：エンコーダーがあり、私は enc のデコーダーを用意する oder 00:35:47 - 00:35:49： X を非表示の表現 00:35:49 - 00:35:52：にマップし、デコーダが非表示の 00:35:52 - 00:35:54：表現をこれらの 00:35:54 - 00:35:56：再び入力にマップします 00:35:56 - 00:35:59：が、これらの 2 つの主要なコンポーネント 00:35:59 - 00:36:02：が app out エンコーダにあるということです。 00:36:02 - 00:36:03：多かれ少なかれ似たようなものがある 00:36:03 - 00:36:06：ので、 00:36:06 - 00:36:09：これは紫色のブロックであるトランスエンコーダー 00:36:09 - 00:36:11：です。この男の中のこれらの人たちに 00:36:11 - 00:36:14：は、クールなセルフアテンションがあり 00:36:18 - 00:36:19：ます。上部に何があるかはすでにわかっています。 00:36:19 - 00:36:23：基本的にすべてのコンポーネントでここで線形レイヤーを実行する 00:36:28 - 00:36:31：カーネルサイズが1の畳み込みを考える場合、基本的 00:36:31 - 00:36:33：に同じ線形レイヤーをセット内のすべての要素に適用 00:36:37 - 00:36:40：します。 -forward しかし、 00:36:41 - 00:36:43：はセット内のすべての要素に適用されるフィードフォワードになるので、 00:36:43 - 00:36:44：実際には 00:36:44 - 00:36:48：畳み込みカーネルが等しい畳み込みです。次に、 00:36:50 - 00:36:53：この ad とノルムの両方を呼び出すことができるモジュールを適用しますこれらの人の両方の後、 00:36:54 - 00:36:56：このモジュールは何ですか。つまり、この男は 00:36:56 - 00:36:59：基本的にここにあるボックスであり、2 つの 00:36:59 - 00:37:01：コンポーネントがあり、追加コンポーネント 00:37:01 - 00:37:04：があり、レイヤーの正規化があり 00:37:05 - 00:37:07：ます。この男を右側に接続すると、 00:37:09 - 00:37:12：自己注意には基本的に 00:37:12 - 00:37:15：残留接続があることを確認しますが、 00:37:15 - 00:37:17：それをバイパスしてからレイヤーの 00:37:17 - 00:37:19：正規化を行い、同じことが 00:37:19 - 00:37:22：上の他の人にも起こるため、 00:37:22 - 00:37:24：畳み込み部分にもこれらの残留 00:37:24 - 00:37:26：接続があり、レイヤーの正規化に 00:37:26 - 00:37:29：なるので、どうすればよいですか 00:37:29 - 00:37:32：基本的に入力のセットを一番下に置きたいこのすべてのものを処理し 00:37:35 - 00:37:37：てから、何とか何とか何とかバブルを右に作成し、エンコーダ 00:37:38 - 00:37:40：の出力で隠された表現を右に取得する 00:37:40 - 00:37:42：ので、このH 00:37:44 - 00:37:47：ファンシーな右に置きます 1 つのデコンボリューションの 00:37:47 - 00:37:50：直前に自己注意を見た 2 つのブロックそれが 00:37:52 - 00:37:55：どのように機能するかを実際に知っている 00:37:59 - 00:38:02：セットの t を正規化すると、 00:38:02 - 00:38:04：これらの勾配が後で戻ってくることを知ることができ 00:38:04 - 00:38:06：、レシーバー接続 00:38:06 - 00:38:09：接続によりすべてがスムーズになります。 00:38:09 - 00:38:13：これはエンコーダー 00:38:13 - 00:38:15：であり、この場合のデコーダーはどのようなものでしょうか。 00:38:18 - 00:38:21：最初にエンコーダーボックスを外します。 00:38:21 - 00:38:23：古いゾーンを 00:38:23 - 00:38:25：外します。Teledyne では、実際には 00:38:25 - 00:38:28：下部の X と排水口の最後の X を外します。 00:38:28 - 00:38:30：これがエンコーダーでした 00:38:30 - 00:38:33：が、中央の接続を削除します。 00:38:33 - 00:38:36：よし、それで 00:38:36 - 00:38:38：デコーダーについて話そうと思うので、 00:38:38 - 00:38:42：デコーダーはエンコーダーとまったく同じですが、あなたの誰かが前に言及し 00:38:42 - 00:38:44：ていたように、私はクロスアテンションを持つつもりです。 00:38:49 - 00:38:51：これらの 00:38:51 - 00:38:53：キーを自分でチェックしているので、このクロス 00:38:53 - 00:38:56：アテンションは 00:38:56 - 00:39:00：これらの正規化モジュールの直後に接続され、 00:39:00 - 00:39:02：もちろんクロスアテンションはencの最後のレイヤーからこれらの隠された表現を取得します 00:39:05 - 00:39:08：または、他 00:39:08 - 00:39:09：に同じものを用意するので、 00:39:09 - 00:39:12：追加と正規化で 00:39:12 - 00:39:14：このものを接続し、最後にそれを正しく差し込んで、 00:39:14 - 00:39:16：追加のモジュールが1つ 00:39:16 - 00:39:18：あり、これが私のデコーダーになるので 00:39:18 - 00:39:20：、デコーダーは次のようになりますエンコーダですが、 00:39:20 - 00:39:23：この追加モジュール 00:39:23 - 00:39:27：はこれらの前のものの間に挟まれてい 00:39:27 - 00:39:29：ます。クロスアテンションについてもっと言えば、 00:39:29 - 00:39:31：クロスアテンションはまさにセルフ 01:02:04 - 01:02:06：ですが、 00:39:38 - 00:39:43：ここにあるこの X とここにあるこの男のような私のキーはもはや X ではありません 00:39:43 - 00:39:47：が、これらはエンコーダーから私の年齢になります。 00:39:50 - 00:39:57：でコーダーとこれが正しいセットでした。だから 00:39:57 - 00:40:01：私はまだ年齢のセットが好き 00:40:05 - 00:40:07：で、マウスで何を試しても大丈夫です。これは 00:40:09 - 00:40:14：、X をエンコード配列からの最終的な非表示の 00:40:14 - 00:40:16：表現なので 00:40:16 - 00:40:18：、ここにいるこの 00:40:18 - 00:40:23：男が値とキーを提供するので 00:40:23 - 00:40:24：、元の軸を 00:40:24 - 00:40:27：使用してクエリを計算し、HS を使用し 00:40:27 - 00:40:31：て計算します te the so this one you 00:40:31 - 00:40:35： will get these X to 00:40:35 - 00:40:38： compute the the D query here here ここでクエリを計算する 00:40:38 - 00:40:40：と、これで 00:40:40 - 00:40:44： K 個のキーと値 00:40:44 - 00:40:47：を計算できます。 00:40:47 - 00:40:49：このものを正しくトレーニングして 00:40:49 - 00:40:51：、下から下にあるものを 00:40:55 - 00:40:58：前の反復から出力することになるので、システムの 00:40:58 - 00:41:00：出力で出力が得られる 00:41:02 - 00:41:04：そこに追加のレイヤーが欠けているようなもの 00:41:04 - 00:41:06：で、自己回帰方式で 00:41:06 - 00:41:09：この出力を取得します。それをフィードバックし 00:41:09 - 00:41:11：ます。その上に追加のレイヤーがあることがわかります。 00:41:11 - 00:41:13：それは問題ではありません。つまり、 00:41:13 - 00:41:15：重要ではなく、 00:41:15 - 00:41:17：元に戻しますそして 00:41:17 - 00:41:20：、一連の出力を積極的に出力していることを知ってい 00:41:22 - 00:41:24：ます。新しい入力があるたびに、この新しい入力は 00:41:24 - 00:41:26：別のクエリを要求し、別のクエリ 00:41:28 - 00:41:31：はエンコーダーからの異なる値について要求する 00:41:31 - 00:41:34：ので、エンコーダ基本味方 00:41:34 - 00:41:39：は私の入力セットの内容を要約していた 00:41:39 - 00:41:43：ので、この男がここにいるのを見る前に、 00:41:43 - 00:41:47：ここに入力セットがあり 00:41:47 - 00:41:48：、この男の出力は一連 00:41:48 - 00:41:51：の非表示表現に 00:41:51 - 00:41:53：なり、デコーダーは次のとおりです。エンコーダーからの表現のこのセット 00:41:53 - 00:41:57：から、このキューを介して必要なもの 00:42:02 - 00:42:05：を照会します。実際にノートブックに移動する 00:42:05 - 00:42:07：必要があります。そうし 00:42:07 - 00:42:12：ないと時間がないため、何かをインポートし 00:42:14 - 00:42:17：ます。このマルチヘッドアテンションは 00:42:17 - 00:42:19：機能するので、初期化 00:42:19 - 00:42:22：部分で、現在の入力を右に回転できるようにするこれらの 3 つの 00:42:22 - 00:42:26：行列 w-qm WK & WV を用意 00:42:34 - 00:42:37：します。最後にヘッドがあり、 00:42:37 - 00:42:42：この転送がどのように 00:42:42 - 00:42:44：正しく機能するので、転送 00:42:44 - 00:42:47：では、クエリの入力 X 00:42:47 - 00:42:50：とキーの入力 X と値の入力を取得し 00:42:50 - 00:42:53：、Q と K と V を取得します。 00:42:53 - 00:42:56：倍数を知っているだけですか 00:42:56 - 00:43:01：特定の項目の入力に 00:43:01 - 00:43:03：この行列 WQ を掛けたものです。つまり、これが 00:43:03 - 00:43:05： X の回転であり、ここ 00:43:05 - 00:43:08：に Q K と V がある 00:43:08 - 00:43:13：ので、このスケールドット積を計算して、 00:43:13 - 00:43:15：これを見ていきます。 00:43:15 - 00:43:17：基本的に 00:43:17 - 00:43:20：すべてのキーに対する 1 つの質問の間のドット積であるスケールドット積な 00:43:20 - 00:43:24：ので、ここまで上がれば、スクロールすることさえできませ 00:43:24 - 00:43:26：ん。申し訳ありませんが 00:43:26 - 00:43:33：、少しズームさせてください。 00:43:36 - 00:43:39：談話まず最初 00:43:39 - 00:43:41：に次元の平方根で 00:43:42 - 00:43:45：割ります。そうしないと爆発が始まる前に言ったからです。次に、これらすべてのキーに対する 00:43:45 - 00:43:47： 1 つのクエリ間で行列乗算を 00:43:51 - 00:43:53：行い、最後にソフトダークマックスを適用して、 00:43:53 - 00:43:54：次のことができるようにします。 00:43:54 - 00:43:58：二乗を計算してください申し訳ありませんが 00:44:12 - 00:44:14：ましたか? 多くの場合、 00:44:14 - 00:44:18：これは自己注意でした。 00:44:18 - 00:44:20：最後に、あなたには複数の 00:44:20 - 00:44:22：頭があるので、 00:44:22 - 00:44:24：この最後の WH を使用してすべてをまとめます。これ 00:44:24 - 00:44:27：が、彼らが注意を呼んだ最初の部分でした。 00:44:27 - 00:44:30：これらの注意について質問はあり 00:44:30 - 00:44:32：ますか? 00:44:32 - 00:44:33：この光をたどってくださいこれは 00:44:33 - 00:44:36：まったく同じですわかり 00:44:37 - 00:44:41：ましたこの部分をもっと遅くする必要があるかどうか教えてください 00:44:41 - 00:44:44：それから下の部分で何が 00:44:50 - 00:44:52：ですか？私たちは正しいことをしようとしていますか? 00:44:52 - 00:44:55：これは多面的な注意 00:44:55 - 00:44:56：です。ここで何をしようとしていますか? 00:45:06 - 00:45:08：エンコーダーを使用して、 00:45:02 - 00:45:04：いくつかの映画で説明されている文章を肯定的な 00:45:04 - 00:45:06：レビューまたは否定的なレビューに分類します。 00:45:08 - 00:45:10：このエンコーダーをトレーニングして 00:45:10 - 00:45:12：分類タスクを実行します。 00:45:16 - 00:45:18：これらのスライドから確認する場合、エンコーダーに必要なものは何ですか?ここで確認する場合 00:45:18 - 00:45:20：、e に必要なもの ncoder 00:45:20 - 00:45:23：エンコーダーには 2 つのコンポーネントがあり、コード 00:45:23 - 00:45:26：を見たところで自己注意があり、 00:45:27 - 00:45:29：畳み込みが正しく、この MLP 多層 00:45:29 - 00:45:32：パーセプトロンがセット内のすべての要素に適用されて 00:45:32 - 00:45:33：いるので、この 00:45:33 - 00:45:38：畳み込み層がどこにあるのかを調べてみましょう。 00:45:38 - 00:45:40：保留中のもの 00:45:40 - 00:45:45：は今日の終わりまでにオンラインになるので、この 00:45:45 - 00:45:47：エンコーダーレイヤーがあり、エンコーダーレイヤーには 00:45:47 - 00:45:48：これほど多くの注意が払われています。さらに、 00:45:48 - 00:45:50：畳み込みネットと畳み込みネットは、 00:45:50 - 00:45:52：それがどのように正しく機能するかをよく知っ 00:45:52 - 00:45:54：ているので、実際に理解することができます 00:45:54 - 00:45:56：ファイトをチェックするか 00:45:58 - 00:46:01：線形行為と線形行為が1次元の 00:46:01 - 00:46:03：畳み込みであることを示すドキュメントをチェックして 00:46:03 - 00:46:05：ください。 00:46:07 - 00:46:10：最終的な 00:46:10 - 00:46:14：畳み込みは大丈夫です。畳み込みネット 00:46:14 - 00:46:16：を作成する方法をすでに知っていると思うので、実行していないと思います。 00:46:16 - 00:46:18：次に 00:46:18 - 00:46:21：、ツールレイヤーの正規化が正しく行われているので、 00:46:21 - 00:46:23：最初にmuがあります lti-head care それ 00:46:23 - 00:46:26：は自己注意なので、すべての入力に対して X X と X を提供 00:46:26 - 00:46:30：し、それから 00:46:30 - 00:46:33：愚かな質問を使用しますが、なぜそれを畳み込みと呼ぶのでしょうか。 00:51:05 - 00:51:07：いくつかの 00:46:45 - 00:46:47：表現を別の表現にマッピングする 00:46:47 - 00:46:51：と、セット内のすべてのコンポーネントに正しく適用される 00:46:51 - 00:46:55：ので、ここにセットがあります。ええ、 00:46:55 - 00:46:57：入力のセットです。ここ 00:46:57 - 00:47:01：に表現のセットがあります 00:47:01 - 00:47:07：ので、セットがありますここで、ええ、では 00:47:07 - 00:47:10：線形レイヤーをすべての要素に個別に 00:47:10 - 00:47:13：適用します。 00:47:24 - 00:47:27： 1つの 00:47:27 - 00:47:29：貢献は別々にそう 00:47:29 - 00:47:32：です、元の論文ではそれを線形層と呼んでいます 00:47:32 - 00:47:35：が、それは 00:47:35 - 00:47:37：実際には畳み込みであるからではありませ 00:47:37 - 00:47:39：ん。 00:47:39 - 00:47:41： nna は 00:47:41 - 00:47:42：線形レイヤーを使用し、それらはすべて 00:47:42 - 00:47:46：フィードフォワードを呼び出しますが、これら 00:47:46 - 00:47:48：は畳み込みであり、ブロードキャスト 00:47:50 - 00:47:52：を行いますが、ソフトアルカマックスと呼ぶのと同じ方法で畳み込みを食べることができます。 00:47:52 - 00:47:54：ソフトとは呼びません。 00:47:54 - 00:47:56：最大間違っていることを知っているからですわかりましたわかりましたでもそれは 00:47:56 - 00:48:00：非常に良い質問 00:48:00 - 00:48:05：です私はほとんど終わっていますわかりました 00:48:05 - 00:48:08：これは私の畳み込みネットですそして、 00:48:08 - 00:48:11：あなたは多層の注意を持っていますそしてこの 00:48:11 - 00:48:14： CN n 正しく、これは単純に 00:48:14 - 00:48:17： 1 次元のものです 00:48:20 - 00:48:23：カーネルサイズも1つの右である1次元畳み込みのように次元なので 00:48:23 - 00:48:26：、線形で実装できますが、 00:48:26 - 00:48:28：ここに書いてから 00:48:28 - 00:48:30：、サイズ1のカーネルで1つのデコンボリューションを 00:48:30 - 00:48:33：実際に記述し、実際には 00:48:33 - 00:48:35：まったく同じ方法で実装されます 00:48:35 - 00:48:38： Phi torch でコードを確認する 00:48:38 - 00:48:40：と、 00:48:40 - 00:48:42：畳み込みの方法は問題 00:48:44 - 00:48:46：ないので、最初の出力を取得し、 00:48:46 - 00:48:50：この出力を送信して合計します。これ 00:48:52 - 00:48:53：は、レイヤーの正規化を介して送信する残留接続が 00:48:57 - 00:49:00：あったためです。出力があるため 00:49:00 - 00:49:01：、出力があります。畳み込み内で出力を送信すると、 00:49:02 - 00:49:04：この男が得られます。これを 00:49:04 - 00:49:06：バイパスします。残留接続 00:49:06 - 00:49:07：を使用し、それをレイヤーの正規化にフィードする 00:49:10 - 00:49:13：ので、エンコーダーは正しいので、エンコーダーはエンコーダーであったすべてを 00:49:13 - 00:49:16：最終的に 00:49:16 - 00:49:20：適合させます。 00:49:24 - 00:49:26：いくつかの文の分類を正しく行う 00:49:26 - 00:49:30：と、それぞれの単語には実際に 00:49:30 - 00:49:32：順序があり、 00:49:32 - 00:49:35：単語のバッグを置くと、これは基本的に 00:49:35 - 00:49:39：行動して単語のバッグに取り組んでいる 00:49:39 - 00:49:40：ようなものですが、実際に意味を理解し 00:49:40 - 00:49:42：たい場合は、 'またインデックスを正しく送信したい 00:49:42 - 00:49:46：ので、セット内の最初のアイテムも 00:49:46 - 00:49:48：持つ必要があるか、これが最初のアイテムだったので 00:49:52 - 00:49:55：、アイテムがどの位置にある 00:49:55 - 00:49:59：かについての情報を家に送信する必要があります。これまでのところ、このエンコーダーは問題ありませんこの 00:49:59 - 00:50:01：変換器とこの注意は 00:50:06 - 00:50:09：、順序に関する情報がないため、完全に順列と同等の権利ですが、文の分類を行いたい場合は 00:50:11 - 00:50:14：、単語の順序を考慮に入れるのが理にかなっているかもしれません。 00:50:16 - 00:50:19：ある種の 00:50:19 - 00:50:22：位置情報を追加できますが、これも重要ではないので 00:50:29 - 00:50:31：、入力用の埋め込みだけを持つ 00:50:31 - 00:50:35：エンコーダーがあり、エンコーダーのいくつかのレイヤーがあり 00:50:38 - 00:50:41：わかりました。これは 1 つのエンコーダーにすぎません 00:50:41 - 00:50:44：が、私たちはディープネットワークを行っているため、ディープネットワークを 00:50:44 - 00:50:47：理解すれば、複数のエンコーダーがあることがわかります。 00:50:51 - 00:50:55：これらはそれぞれ正しいエンコーダーであり、コーダーであるため 00:50:55 - 00:50:58：、これらのエンコーダーを複数スタック 00:50:58 - 00:51:02：して、ネットワークをより多くすることができます。強力な 00:51:02 - 00:51:05：ので、ここにはいくつかのレイヤーのリストがあり、 00:51:07 - 00:51:09：エンコーダーに一緒 00:51:09 - 00:51:12：に出席し、これらのIMDBデータセットでこれらのものをトレーニングし 00:51:12 - 00:51:14：ます。これは基本的に私に与えています 00:51:14 - 00:51:17：映画のレビュー、そして 00:51:17 - 00:51:18：それが良い映画か悪い映画かを判断する必要があり、 00:51:23 - 00:51:30：それで大部分が終わったので、これらの大きな男を 00:51:30 - 00:51:31：訓練し、訓練ループを維持するだけです。 00:51:31 - 00:51:33：まったく同じ列車ループになるからです. 00:51:33 - 00:51:37：私たちは何度も見てき 00:51:37 - 00:51:39：ましたが、最初は精度が 50 00:51:39 - 00:51:41： % であることを知っていました。 00:51:50 - 00:51:53：テストの精度は 83% で問題 00:51:53 - 00:51:55：ないので 00:51:55 - 00:52:00：、特に注意したいのは、 00:52:00 - 00:52:03： RNN を使用して文の分類を行う場合 00:52:03 - 00:52:06：、複数回送信する必要 00:52:06 - 00:52:08：があるという事実です 00:52:08 - 00:52:10：つまり、 00:52:10 - 00:52:13：一連の操作の代わりに、 00:52:13 - 00:52:16：この場合、これらのアテンションメカニズムを 00:52:16 - 00:52:18：示します。一連の操作はありません。 00:52:18 - 00:52:19：すべてが 00:52:19 - 00:52:23： 1 回で正しく計算されるため、この場合 00:52:23 - 00:52:26：、これらの最終年齢行列が得られます。 00:52:26 - 00:52:29： ch は私の文のすべての要素の表現です 00:52:33 - 00:52:35： 1 つの目標を正しく計算しているので、 00:52:35 - 00:52:38：一時的なループはもうありません待機時間はもうありません 00:52:38 - 00:52:40：ブームのようにすぐに 00:52:40 - 00:52:43：すぐに正しく行われます 00:52:43 - 00:52:46：これは単なる行列であるため、多くのことを麻痺させることができます 00:52:48 - 00:52:52：もう1つ 00:52:52 - 00:52:57：注意すべきことは、行列がある場所はどこ 00:52:57 - 00:53:01：ですか、行列は大丈夫です、 00:53:01 - 00:53:05：この男は非常に危険ですよねT 00:53:05 - 00:53:07：はTの数ですよねTはタイトルの数です 00:53:07 - 00:53:09：よねほら 00:53:09 - 00:53:13：、私のレシピブックには千のレシピがあります。 00:53:13 - 00:53:14：なぜなら、それは 1000 個だからです。 00:53:14 - 00:53:16：レシピブックを解放 00:53:16 - 00:53:19：します。これらのメトリクスのサイズは、 00:53:19 - 00:53:21： 1000 の 1000 倍です 00:53:21 - 00:53:24：。100 万次元は巨大で 00:53:24 - 00:53:28：、ここで事実をはっきりと見ることができます。 00:53:28 - 00:53:32：多くのインデックスが多くの多くのキーを持っている場合、 00:53:32 - 00:53:34：このようなものは 00:53:34 - 00:53:37：すぐに爆発し始める 00:53:37 - 00:53:39：ので、それに注意を払う 00:53:39 - 00:53:40：必要があり、さまざまな方法があることを知っています 00:53:40 - 00:53:44：これもたとえば 00:53:44 - 00:53:47：、半分に分割して何かを行うことができ 00:53:47 - 00:53:50：ますが、実装の詳細については、今 00:53:50 - 00:53:53：は授業の 10 分後です。私は 00:53:53 - 00:53:54：あなたのためにここにいて、あらゆる種類の質問に答えますが、 00:53:54 - 00:53:56：なんとかノートブックを確認できたと思います 00:54:08 - 00:54:13：、1 つのアテンションヘッドの 1 つのヘッドでは、1 00:54:13 - 00:54:18：つのマトリックスのみを使用 00:54:18 - 00:54:21：します。クエリには、キーと値のそれぞれに 1 つの重みマトリックスを使用 00:54:24 - 00:54:27：します。 00:54:27 - 00:54:30：それらを押しつぶすので、最後に 00:54:30 - 00:54:36： H V になる可能性があります。ここでこの行列を使用 00:54:36 - 00:54:40：して、すべてを D 次元に押しつぶすことができます。 00:54:40 - 00:54:43：これはこれを行う方法です。 00:54:52 - 00:54:54：ええ、その間 00:54:54 - 00:54:57：に何かが起こったことを共有しませんはい、多頭 00:54:57 - 00:55:01：注意は、同じ入力に対して複数のクエリがあることを意味し、 00:55:06 - 00:55:09：空腹のように同じホイールについて複数の質問をすることができます 1 つの質問 00:55:09 - 00:55:11：は、どうすればラザニアを作ることができるかということです 00:55:11 - 00:55:13：が、あなたは家に牛ひき肉がないことを知って 00:55:14 - 00:55:17：ので、2 つ目の質問は、うーん 00:55:17 - 00:55:19：、ベジタリアン料理を作ること 00:55:19 - 00:55:21：ができるかということです。 00:55:21 - 00:55:24：さまざまな質問 00:55:24 - 00:55:26：がありますが、クロスアテンション 00:55:26 - 00:55:29：を使用したエンコーダー/デコーダー構造のスライドに移動できます 00:55:29 - 00:55:34：かはい、ここでOKです 00:55:34 - 00:55:38：最初のセルフアテンションレイヤーへの入力は、 00:55:41 - 00:55:44：その場合のクエリを計算する方法になります W Q 回 X 00:55:44 - 00:55:47：私は Q と言います私は攻撃と呼ばれますので、 00:55:47 - 00:55:50：これでは自己注意ですええそう 00:55:50 - 00:55:53：です自己注意ではそれらはすべて 00:55:53 - 00:55:56：これらの q を保持しています q qk と V 00:55:56 - 00:56:01：は X ではなく Y ハットから来ています。この X を Y に置き換えたいと思います。 00:56:04 - 00:56:06：あれは何だったの？また白い帽子は何だったの？ 00:56:06 - 00:56:09： Y 帽子は私のものに 00:56:09 - 00:56:11：なるの？ここでこのシステムを訓練するときはいつでも 00:56:11 - 00:56:13：最初の 00:56:13 - 00:56:15：言葉を予測 00:56:15 - 00:56:16：するのね 00:56:16 - 00:56:19：このシステムはあなたを翻訳するように訓練されてい 00:56:22 - 00:56:26： 1 つの言語で文章を入力してください I'm happy hungry I'm 00:56:26 - 00:56:27： hungry. 次に 00:56:27 - 00:56:29：、イタリア語のようにもう一方の言語 00:56:29 - 00:56:33：を入力します。 00:56:37 - 00:56:39：私はお腹が空いたお腹がすいていない空腹ではない英語でお腹が空いているの表現であり、 00:56:39 - 00:56:42：あなたが食べた後、 00:56:42 - 00:56:44：ここに入れます私はお腹がすいた 00:56:47 - 00:56:50：私は 00:56:50 - 00:56:53：あなたがここにすべてを書き留めます。あなたはイタリア語 00:56:53 - 00:56:55：でお腹が空いている出力として家族を置くようにシステムを強制する 00:56:55 - 00:57:00：ので、私が大丈夫と言ったら、 00:57:00 - 00:57:02：多分 00:57:02 - 00:57:07：私が大丈夫と言いたいのなら、 00:57:07 - 00:57:10：ちょっと書き留めさせてください。英語 00:57:10 - 00:57:14：でカットを言うと、イタリア語でああ、 00:57:14 - 00:57:23：ああ、大丈夫です。最初に 00:57:23 - 00:57:25：エンコーダーの内部に入るカットがあり、 00:57:25 - 00:57:27：次にエンコーダーがこの男をここに吐き出し 00:57:27 - 00:57:30：、これらの入力のそれぞれに関連付けられた 1 つの H が 00:57:30 - 00:57:33：あり、次にこれらの 00:57:33 - 00:57:35：ものを最初にここに入れると、ここで 00:57:36 - 00:57:39：大きなゼロになりますそして、このもの 00:57:39 - 00:57:43：は、あなた 00:57:43 - 00:57:47：がここに1つを置くと、この 00:57:51 - 00:57:56：男は吐き出すつもりです。 00:57:56 - 00:58:00：最後まで右 II はいはいわかり 00:58:00 - 00:58:02：ましたここの一番下で異なる入力を取得するたびに 00:58:06 - 00:58:08：はこれらの 8 つのエンコーダーのさまざまなコンポーネントを調べることを決定できます 00:58:08 - 00:58:11：わかりませんそれは意味がありませ 00:58:11 - 00:58:15：んはいそしてその場合、クラスアテンションモジュールに何が行きますか 00:58:18 - 00:58:21：アテンションモジュールは出力を取得しています。 00:58:21 - 00:58:23：このワイヤはこの追加 00:58:23 - 00:58:28：ノルムの出力です。したがって、この追加ノルムの出力は 00:58:28 - 00:58:31： Q のヒーターの内側に入り 00:58:38 - 00:58:41：エンコーダーのキーはわかりましたわかりました 00:58:41 - 00:58:47：ありがとうわかりました質問がありまし 00:58:47 - 00:58:52：た最初は 1 回に 00:58:52 - 00:58:56：使用するマトリックスの数についてでし 00:59:01 - 00:59:03：た気がついた 00:59:03 - 00:59:05：たくさんあります今日のクラスはかなり密集 00:59:05 - 00:59:08：していまし 00:59:08 - 00:59:10：たセルが何を参照しているのか、クロスが何を参照しているのかについて混乱していた 00:59:22 - 00:59:26：ように願っていますあなたは 00:59:26 - 00:59:29：何らかの表現を取得 00:59:29 - 00:59:35：し、それを理由として戻します。私には 00:59:35 - 00:59:40：、ある種の再発のように見えます 00:59:40 - 00:59:41：が、これは自動回帰と呼ばれる 00:59:42 - 00:59:45：ので、これ 00:59:45 - 00:59:47：はテキストを生成するためのものであり、テキストを生成するには生成する必要があります 00:59:47 - 00:59:50：最初の出力をフィードし 00:59:50 - 00:59:52：、その出力を内部で 00:59:52 - 00:59:54： 2 番目のガイを正しく取得するので、エンコーダーに 00:59:54 - 00:59:56：は自動回帰機能がありません。 00:59:56 - 01:00:01：エンコーダーはこの H エンコーダーを生成するだけで 01:00:01 - 01:00:03：、デコーダーは 01:00:03 - 01:00:06：一度に 1 つの単語を生成します。 01:00:06 - 01:00:09：自己回帰的な方法で時間をかけるので、正しい人 01:00:09 - 01:00:12：は生成モデルです。 01:00:12 - 01:00:15：ただし、このモデルをトレーニングするときは、エンコーダーとデコーダー 01:00:15 - 01:00:17：を一度に d トレーニングします。 01:00:24 - 01:00:28：ステップは前のステップに依存し 01:00:28 - 01:00:29：ます。推論を行っているときの文は 01:00:29 - 01:00:33：自動回帰です。推論は自動 01:00:33 - 01:00:35：回帰ですが、トレーニングはそう 01:00:35 - 01:00:37：です。間違ったものがあるため、 01:00:37 - 01:00:40：大丈夫です。未来の時間ステップをマスクし 01:00:40 - 01:00:42：て、他のすべて 01:00:42 - 01:00:43：ではなく、最初の単語のみを受け取る最初の単語に対してそれを実行しようとしています。 01:00:47 - 01:00:51：などなど、ルックアヘッドマスクのように 01:01:00 - 01:01:02：呼び出しましょう。この場合のキューは 01:01:02 - 01:01:03：、イタリア語の右の 01:01:03 - 01:01:06：ようなものです。2 回目はプディングが好きで、 01:01:06 - 01:01:09：右上が右です。その後、 01:01:09 - 01:01:11：下に来て、それをフィードします。 01:01:11 - 01:01:15：キューはクロス 01:01:15 - 01:01:19：アテンションに入り、その時点で K 01:01:19 - 01:01:23：エンコードされた英語の単語の英語のキーになり 01:01:23 - 01:01:29：ますが、値も 01:01:29 - 01:01:32：英語の表現からのものになる 01:01:32 - 01:01:34：ので、どうやってそれが 01:01:34 - 01:01:38：イタリア語のように吐き出されるの 01:01:38 - 01:01:41：でしょうか良い質問ですこれらのモジュールの複数をスタックし、 01:01:41 - 01:01:46：どういうわけか魔法が起こり 01:01:46 - 01:01:49：ます値とキーが英語から来て 01:01:49 - 01:01:52：いるかどうかはわかりませんが、これも問題ないので、 01:01:52 - 01:01:54：このシステムをトレーニングするたびに 01:01:57 - 01:01:59：基本的に言語にとらわれない表現になるでしょう。 01:01:59 - 01:02:02：したがって、片側に英語があると思います 01:02:02 - 01:02:04：反対側のイタリア語 01:02:06 - 01:02:08：これらの種類の埋め込みがある場合は常に、これは 01:02:08 - 01:02:11：言語にとらわれない権利のようなものであると想定できます。 01:02:11 - 01:02:13：したがって、質問は、 01:02:13 - 01:02:16：このイタリア語の単語が 01:02:16 - 01:02:18：このようなものを探していることを理解するだけです 01:02:18 - 01:02:21：。ここに埋め込まれているものをエンコードして、 01:02:21 - 01:02:23：私の特定の質問に今すぐ一致することを知っている 01:03:13 - 01:03:17：ので、それ 01:02:26 - 01:02:28：は解釈のようになると思います。 01:02:30 - 01:02:33：ここにはイタリア語の英語があり 01:02:33 - 01:02:35：、エンコーダーをバブルアップすると、言語の特異性が削除され、 01:02:38 - 01:02:41：この種の再利用は、エンコーダーを知っています。 01:02:41 - 01:02:44：つまり、これは 01:02:44 - 01:02:47：、エンコーダーデコーダーの再帰 01:02:47 - 01:02:49：型ニューラルネットワークでの動作に似ていると思います。 01:02:49 - 01:02:53： 1つの文全体をエンコードしているnエンコーダーは、言語に依存しないその文 01:02:53 - 01:02:55：の表現のようにすることができます。 01:02:58 - 01:03:00：実際には、 01:03:00 - 01:03:02：再帰ネットワークを使用した後 01:03:02 - 01:03:06：、デコーダーのようなディックを持っていました。 01:03:06 - 01:03:07：その最終的な表現を使用するか、特定のものを見 01:03:07 - 01:03:09：ている注意を払うこともでき 01:03:09 - 01:03:13：ます過去のタイムステップだと思います 01:03:17 - 01:03:22：は言語の一部です自然な神経言語 01:03:22 - 01:03:26：翻訳 NTM脳の神経言語 01:03:26 - 01:03:30：とnltc機械機械翻訳そして 01:03:30 - 01:03:32：それはええそれはそのようなものの一部 01:03:32 - 01:03:37：です申し訳ありませんが、最後の質問だけ 01:03:38 - 01:03:40：ですが、あなたの質問に少し答えましたが、これは私の推測です。 01:03:40 - 01:03:44：埋め込みがその日になるようです 01:03:44 - 01:03:47： H Hエンコーダーは 01:03:47 - 01:03:49：、言語固有の 01:03:49 - 01:03:52：情報を取り除いているようですまさに概念 01:04:00 - 01:04:03：そのものです。言語を付けずに概念を表現しただけです。 e ある意味でありがとうございます。 01:04:03 - 01:04:07：それ自体が埋め込み 01:04:07 - 01:04:08：になるので、 01:04:08 - 01:04:11：それが正しい K と比較さ 01:04:11 - 01:04:13：れます。この場合の Q は、ターゲット言語になるあなたの言語から来ています。 01:04:24 - 01:04:28：、イラスト付きトランスフォーマーと呼ばれる私の友人のブログを見ることを本当にお勧めします。 01:04:28 - 01:04:31：それは 01:04:31 - 01:04:35：非常に非常にうまく書かれ 01:04:35 - 01:04:37：ており、私がやろうとしている言語部分についてもう少し文脈があるかもしれません。 01:04:42 - 01:04:45：このプレゼンテーション内に言語を含め 01:04:45 - 01:04:46：ないでください。このトランスフォーマーをあらゆる種類のデータに正しく使用できることを知っているためです。 01:04:49 - 01:04:52：基本的に、これらはセットからセットへの 01:04:52 - 01:04:54：マッピングですが、ここ 01:04:54 - 01:04:57：での例は、翻訳部分に合わせて非常に調整されていることを知っているだけです 01:04:57 - 01:05:01：が、翻訳は可能です。 01:05:01 - 01:05:04：また、生成モデルをピクセルごとに作成するためのトランスフォーマーも備えている 01:05:04 - 01:05:07：ため、このアーキテクチャを 01:05:07 - 01:05:10：使用して実際にこのもので物を描くことができます 01:05:13 - 01:05:16：。J Alomar によって非常に変換されます。 01:05:17 - 01:05:21：わかりました、私は本当に彼の物事の見方が本当に好きです 01:05:21 - 01:05:23：が、ここにすべての行列が 01:05:23 - 01:05:27：転置されているので、それは私を悩ませているようなものです.行列を転置したのは私だ 01:05:27 - 01:05:29：と思います. 01:05:29 - 01:05:33：誰もがそれらを水平に持っています. 01:05:36 - 01:05:40：エンコードされた表現は言語にとらわれないとあなたが言ったより多くの質問 01:05:50 - 01:05:51：は、あなたが翻訳している言語の両方に私がいるという方法である種の類似性を想定していません。 01:06:00 - 01:06:02：言語にとらわれない表現については 01:06:02 - 01:06:03：、英語とフランス語 01:06:03 - 01:06:05：で同じ 01:06:09 - 01:06:12：です。利用可能なデータの種類だけでなく、言語の戦闘経験レポートに関しても、英語と中国語を言うよりも類似点があります。これも 01:06:17 - 01:06:20：で同様に機能します類似していない言語、または 01:06:20 - 01:06:22：パフォーマンスがどれほど悪いか同じ 01:06:22 - 01:06:25：ように機能しますかあらゆる種類の言語または言語を知っています 01:06:25 - 01:06:26：あまり似ていないuages 01:06:26 - 01:06:28：は、どのモデルにとっても問題で 01:06:28 - 01:06:30：あり、もちろん、 01:06:30 - 01:06:32：それを解決できる何かの問題であるため 01:06:38 - 01:06:40：、ターゲットが 01:06:40 - 01:06:43：ソース言語は非常に異なります彼の 01:06:43 - 01:06:45：リビアの仕事 01:06:45 - 01:06:48：は、好奇心からそのギャップを埋めようとするものです。はい 01:06:48 - 01:06:51：、それは未解決の問題であるように 01:06:53 - 01:06:55：、私またはオーストラリアにとってさらに質問があります。 01:06:55 - 01:06:59：髪の毛と内容 01:06:59 - 01:07:03：に関する質問かもしれません。キャロル 01:07:03 - 01:07:07：エンコーダーとデコーダーについて再度質問さ 01:07:07 - 01:07:11：れたので、ページに戻ってもよろしいでしょうかええ、ありがとう 01:07:11 - 01:07:13：ございますクロスアテンションと 01:07:14 - 01:07:17：は、あなたが知っているエンコーダーに注意を向けていることを理解して 01:07:22 - 01:07:26：いますなぜ私たち 01:07:26 - 01:07:28：は未来の言葉を正しく見ることができなかった 01:07:28 - 01:07:31：ので、私が時間Tにいるときのように入力すると 01:07:31 - 01:07:34：、savaは自己 01:07:34 - 01:07:37：注意をどの程度の順序で行うのでしょう 01:07:40 - 01:07:44：なぜそれは時間の前にあるので、 01:07:44 - 01:07:46：実際に指定する必要 01:07:46 - 01:07:48：がありました.ここで説明するのはうまくいかなかったと思うので、これには2 01:07:48 - 01:07:51：つの部分があります.最初はトレーニングであり 01:07:51 - 01:07:53：、トレーニングではシーケンス全体 01:07:53 - 01:07:57：がありますが、もちろんできます ' 01:07:57 - 01:08:00：将来のアウトプットを正しく 01:08:00 - 01:08:02：見ないでください。最初の理由はここで一番下にあり 01:08:02 - 01:08:05：、2番目の理由は正しく、2番目の理由 01:08:05 - 01:08:07：は3番目の結果を 01:08:07 - 01:08:08：見ることができません. 01:08:13 - 01:08:15：何を出力しようとしているのかを常に知ること 01:08:15 - 01:08:17：ができますが、将来何を出力する可能性があるかを知ることはできないため、以前の賢明な権利を見る 01:08:24 - 01:08:26：ことができます。システムと 01:08:26 - 01:08:28：ここでは、デコーダーの最後の 01:08:28 - 01:08:31：基本的な最初のモジュールにすべてのセットを入れるつもりです。 01:08:34 - 01:08:36：質問を生成し、ここに来る質問 01:08:39 - 01:08:42：は、エンコードされた se から情報を取得します。 ntence 01:08:43 - 01:08:45： and はエンコードされた文が何らかの形で 01:08:45 - 01:08:49：他の言語に変換され、 01:08:49 - 01:08:51：その後、実際に推論を行うたびに、これはすべてワンパスブームで行われ 01:08:54 - 01:08:56：ます。この場合 01:08:56 - 01:08:58：、基本的 01:08:58 - 01:09:01：にエンコーダからの特定の表現から開始する必要が 01:09:01 - 01:09:03：あります価値があるので、あなたはおそらくゼロのように 01:09:03 - 01:09:06：なり、あなたは古い質問をするつもりです 01:09:08 - 01:09:10：私が最初に始めるべき単語は 01:09:10 - 01:09:11：何でしょうか 01:09:13 - 01:09:16： ? ウナウナで終わる 01:09:16 - 01:09:20：そして、あなたは 01:09:20 - 01:09:23：これを入力に配置し 01:09:23 - 01:09:25：、ネットワークが私がすでに出力したことを知っていることを 01:09:25 - 01:09:28：考えると、 01:09:28 - 01:09:31：次の質問は何になるでしょう一人で 01:09:31 - 01:09:33：何を聞いてください 01:09:33 - 01:09:37： une を入力した後の次の単語になります。これが私の 01:09:37 - 01:09:39： 2 番目の質問です 01:09:47 - 01:09:51：ここで対応する gato に変換されます。これは 01:09:51 - 01:09:54：、イタリア語で cat を知っています。次に、 01:09:54 - 01:09:57： cut gato をここに戻すと、同じプロセス 01:09:57 - 01:09:59：で、文の終わりに到達したと言います。 01:10:06 - 01:10:09： Godot が 2 番目の単語である場合 01:10:09 - 01:10:14：、すべての時間ステップ前にすべてを 01:10:14 - 01:10:15：見ることができるので、彼らがそれを見ると、彼らは同様の注意を払うことができることを意味します 01:10:19 - 01:10:22：、ビルダーのような現在の俳優インターンシップの前の全体的な時間ステップです。 01:10:30 - 01:10:33：彼らが注目についての記事のように持っている蒸留ドットパブからのアニメーションを見ることをお勧めします。彼らは、 01:10:33 - 01:10:36：各単語が異なる特定の他の単語をどのように見ているかを示しています。 01:10:48 - 01:10:52：スーツケースが大きすぎたので 01:10:52 - 01:10:55：、トロフィーが大きすぎて 01:10:57 - 01:10:59：収まらなかったと思いますが、トロフィーが小さすぎて荷物に収まらなかったと言う 01:11:02 - 01:11:04：、小さいものは注目されるでしょう 01:11:04 - 01:11:07：荷物が小さすぎたので、 01:11:07 - 01:11:09：実際に収まる可能性があり 01:11:09 - 01:11:11：ます。たとえば、 01:11:11 - 01:11:14：文が実際に同じであることを確認すると、小さい 01:11:14 - 01:11:16：か大きいかは両方とも形容詞ですが、一方の 01:11:16 - 01:11:19：目的はトロフィーを見て、もう一方の目的を調べます 01:11:19 - 01:11:20：私たちは荷物 01:11:20 - 01:11:23：やスーツケースを見て、もう一度 01:11:23 - 01:11:25：チェックインを 01:11:25 - 01:11:27：見ること 01:11:31 - 01:11:34：をお勧めします. 01:11:34 - 01:11:37：シーアは 01:11:37 - 01:11:40：これらの文を知っています私は 01:11:40 - 01:11:41：あなたたちが私のチャンネルを与えるのをよく 01:11:47 - 01:11:48：忘れていましたええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええええ限り 01:11:52 - 01:11:54：それは私の友人のクリス・クリストファー・ 01:11:54 - 01:11:58：オラからのものです。彼はかつてGoogleの頭脳 01:11:58 - 01:12:01：でしたが、今では彼は目を開いており、彼 01:12:03 - 01:12:06：は基本的にこのウェブサイトを後援してい 01:12:06 - 01:12:10：ます。非常にかわいいビジュアライゼーションがある壷 01:12:10 - 01:12:13：なので、私はビデオ 01:12:13 - 01:12:15：とプレゼンテーションを作成し、彼はインタラクティブな記事を知ってもらいます。 01:12:19 - 01:12:21：、そこからすべてを読むことを本当にお勧めします。 01:12:21 - 01:12:24：本当に気に入っています。ええ、インターネットには素敵な 01:12:24 - 01:12:32：友達がいます。もっと質問があり 01:12:32 - 01:12:34：ます。これは広めるべきだったと思います。 01:12:34 - 01:12:37：ダンスを分割するために2つのレッスンにまたがっ 01:12:37 - 01:12:40：て申し訳ありませんが 01:12:40 - 01:12:43：、リフォーマーネットワークが何をするかについて何か考えがありますか? はい 01:12:44 - 01:12:49：、著者のブログ投稿でリフォーマーネットワークを実際に確認できます. 01:12:56 - 01:12:58：たとえば、512以上のように処理でき 01:12:58 - 01:13:00：ますが、ええ、彼らはいくつかの派手な 01:13:00 - 01:13:05： LSHの注意を払っています。それは私の手の甲だったのでわかりません。 01:13:07 - 01:13:09：これらの長いシーケンスを持つ問題はこれで問題ない 01:13:09 - 01:13:11：ので、これはうまくいき 01:13:11 - 01:13:17：ます。また女の子からのブログ投稿があります 01:13:17 - 01:13:20：名前を忘れました 01:13:20 - 01:13:25：リリアンリリアンリリアンリリアンは 01:13:25 - 01:13:27： 2 日前か 3 日前にトランスフォーマーファミリーと呼ばれる素敵なブログ投稿をしています。 01:13:31 - 01:13:34：ブログの投稿にはいくつかのエラーがありますが、わかりました。 01:13:34 - 01:13:41：もっと質問するのは良いと思います。 01:13:41 - 01:13:45：または、夕食を作るつもりです。 01:13:45 - 01:13:48：申し訳ありませんが 01:13:48 - 01:13:50：、このテーブルパブの記事のタイトルを付けた 01:13:50 - 01:13:52：ので、Bastille a pub で確認させて 01:13:52 - 01:13:55：ください。私は実際に正確に大丈夫かどうかわかりません. 01:13:55 - 01:14:01：これはジェイの超クールな男であり、 01:14:01 - 01:14:04：彼が実際に書いた記事は私が書い 01:14:07 - 01:14:13：たものではないので、私が間違っていなければ、これは蒸留ドットパブから来ているはずなので、 01:14:13 - 01:14:15：私が言及していたのはこれです 01:14:15 - 01:14:17：このイラストは、 01:14:17 - 01:14:20：このイラスト付きの変圧器 01:14:20 - 01:14:23：からのこれらの写真です。これはクリストファー・オラのパブを蒸留したものだと思います。 01:14:25 - 01:14:29：他のウェブサイトはまだドット 01:14:29 - 01:14:34：パブです。 01:14:52 - 01:14:53：はここから来ていると思います 01:15:02 - 01:15:04：それは心の注意とソフトな注意について語ってい 01:15:04 - 01:15:10：ます多分私は嘘をついたと思います 01:15:10 - 01:15:13：ここでこれらの写真について話していた 01:15:13 - 01:15:15：ので、これはこのテーブル pub t から来ていると思いました 01:15:15 - 01:15:17： t 多分私が間違っていたのかもしれません 01:15:17 - 01:15:19：これらは彼らの名前のように話していた写真です 01:15:19 - 01:15:23：彼らは異なる言葉に注意を向けて 01:15:23 - 01:15:26：いますわかりましたわかりました動物 01:15:26 - 01:15:28：は疲れすぎて通りを渡りませんでした 01:15:28 - 01:15:30：そしてあなたはそれが唯一のアトムアニマであったことをここに持ってい 01:15:30 - 01:15:33：ますこの 01:15:33 - 01:15:35：場合は 01:15:35 - 01:15:38：幅が広すぎたので、動物は通りを 01:15:38 - 01:15:40：横切らなかったのかもしれ 01:15:40 - 01:15:43：ません。 01:15:47 - 01:15:51：スコアはここにあるので、スカラー積 01:15:51 - 01:15:54：はこの地域でより高いスコアを持ってい 01:15:54 - 01:15:56：ます。ここにあなたは私から何かを必要 01:16:06 - 01:16:10：としています。 01:16:12 - 01:16:15：繰り返しになりますが、これらのレッスンからさらに多くを得るにはどうすればよいでしょうか。 01:16:15 - 01:16:18：また、何かが明確ではありませんでし 01:16:18 - 01:16:20：た。私は下手な仕事をしました 01:16:20 - 01:16:23：。ニュースの下のコメントセクションで何でも聞いてください。 01:16:26 - 01:16:27：「FCN で 01:16:27 - 01:16:32： Twitter で教えています。この YouTube チャンネルを購読すると、更新を再度処理すると言いました 01:16:39 - 01:16:41：私の作品が気に入った場合、特にこのビデオが気に入った場合は、オンラインにアップロードすると 01:16:41 - 01:16:43：すぐに最新のビデオを入手できます。このようなボタンを押すだけです。 01:16:43 - 01:16:46：ビデオには、 01:16:46 - 01:16:49：すべてのタイトルがこのビデオのセクションにリンクされているコースのウェブサイトで見つけることができる英語のトランスクリプトがあります 01:16:53 - 01:16:57： parla Italiano hablas espanol new Ohama 01:16:57 - 01:17:00： you speak Korean you speak Turkish 01:17:05 - 01:17:07：独自の言語を 01:17:07 - 01:17:09：利用できるようにしたい場合は、そこをチェックしてください。翻訳部分 01:17:09 - 01:17:11：を開始できるように、お気軽に私に連絡してください。 01:17:11 - 01:17:14：最後に 01:17:16 - 01:17:19：、このクラスのコアである piperj ノートブックを調べてみてください。そして 01:17:19 - 01:17:22：、すべての 01:17:22 - 01:17:24：メソッドとクラス、および 01:17:24 - 01:17:26：このノートブックの変更パラメーターをトレーニングするために試行する必要があるすべての小さなことを 01:17:29 - 01:17:31：よく理解して、理解を深めることができます。 01:17:34 - 01:17:36：今回はかなり多かったので、 01:17:36 - 01:17:38：このノートブックを正しくチェックした方がよい 01:17:38 - 01:17:42：でしょう。最後に、タイプミスのエラーを見つけ 01:17:42 - 01:17:44：て、すべてを知っている場合は、もっとうまくやれると思うので、 01:17:44 - 01:17:46：もっとうまくやれば、コンテンツを改善でき 01:17:46 - 01:17:48：ます。ウェブサイトがホストされている github リポジトリに貢献する場合は、あなたの助けを借りて 01:17:50 - 01:17:53：、それはほとんどそれでした。

チャンネル登録

Alfredo Canziani

※本サイトに掲載されているチャンネル情報や動画情報はYouTube公式のAPIを使って取得・表示しています。

概要カレンダー動画一覧タイムテーブルチャンネル分析

Timetable

動画タイムテーブル

よく話題になっている単語を表示する

動画数：129件

字幕を含める

– Welcome to class - 10P – Non-contrastive joint embedding methods (JEMs) for self-supervised learning (SSL)

– Welcome to class

10P – Non-contrastive joint embedding methods (JEMs) for self-supervised learning (SSL)

2022年06月07日　

00:00:00 - 01:05:28

Loading...

コラボ他の人とコラボする

5

5

自動再生読上