【Deep Learning研修（発展）】系列データモデリング (RNN / LSTM / Transformer)　第１２回「GPT-2, GPT-3」

【Deep Learning研修（発展）】（ https://www.youtube.com/playlist?list=PLbtqZvaoOVPA-keirzqx2wzpujxE-fzyt ）はディープラーニング・機械学習に関する発展的な話題を幅広く紹介する研修動画シリーズです。Neural Network Consoleチャンネル（https://www.youtube.com/c/NeuralNetworkConsole/ ）でもディープラーニングに関するより基礎的な内容の解説動画を公開しておりますので、ぜひそちらも御覧ください。

本動画は「系列データモデリング」の第１２回の動画です。本動画では、GPT2およびGPT3について、その内容や各種タスクにおけるパフォーマンスを解説します。

[スライド5] Language Models are Unsupervised Multitask Learners
https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

[スライド7] Language Models are Few-Shot Learners
https://arxiv.org/abs/2005.14165

[スライド16] 文章生成AI「GPT-3」が Reddit で1週間誰にも気付かれず人間と会話していたことが判明
https://gigazine.net/news/20201008-gpt-3-reddit/

[スライド16] AIが人間は3日かかる課題を20分以下に、脅威の「GPT-3」が大学の授業4科目のうち3科目に合格
https://ledge.ai/gpt-3-eduref-net/

[スライド20] Scaling Laws for Neural Language Models
https://arxiv.org/abs/2001.08361

[スライド21] Scaling Laws for Autoregressive Generative Modeling
https://arxiv.org/abs/2010.14701

[スライド22] GPT-3の衝撃
https://deeplearning.hatenablog.com/entry/gpt3

[スライド22] OpenAIが発見したScaling Lawの秘密
https://deeplearning.hatenablog.com/entry/scaling_law

[参考文献] 事前学習済言語モデルの動向
https://speakerdeck.com/kyoun/survey-of-pretrained-language-models-f6319c84-a3bc-42ed-b7b9-05e2588b12c7

[参考文献] 自然言語処理の最新技術動向紹介
https://www.slideshare.net/techblogyahoo/ss-240525674

--
ソニーが提供するオープンソースのディープラーニング（深層学習）フレームワークソフトウェアのNeural Network Libraries（ https://nnabla.org/, https://github.com/sony/nnabla/ ）に関連する情報を紹介する動画チャンネルを開設しました（ https://www.youtube.com/c/nnabla ）。Neural Network Librariesのチュートリアル・Tipsに加え、最先端のディープラーニングの技術情報（講義、最先端論文紹介）などを発信していきます。チャンネル登録と応援よろしくおねがいします！

同じくソニーが提供する直感的なGUIベースの深層学習開発環境のNeural Network Console（ https://dl.sony.com/ ）が発信する大人気のYouTubeチャンネル（ https://www.youtube.com/c/NeuralNetworkConsole/ ）でもディープラーニングの技術講座やツールのチュートリアルを多数公開しています。こちらもチャンネル登録と応援よろしくおねがいします。

【Deep Learning研修（発展）】系列データモデリング (RNN / LSTM / Transformer) 第１２回「GPT-2, GPT-3」

nnabla ディープラーニングチャンネル

Timetable

よく話題になっている単語

事前学習

結果パート「GANベースのADM」--> 「Diffusion ModelのADM」です

右側の論文タイトルは「Pre-training Vision Transformers with Very Limited Synthesized Images」-->「SegRCDB: Semantic Segmentation via Formula-Driven Supervised Learning」です

Finetuning, adaptor, prompting

人認識（ロバスト性とドメイン汎化性）

人認識（新しいタスクとデータセット）

人認識（一貫性）

3D認識（シーン依存型）

3D認識（シーン非依存型）

まとめ

効率の良いアーキテクチャ

Pruningと量子化

データを使わない・限られた量のデータを用いた量子化とプルーニングの手法が近年提案されています

Lowレベルと物理ベースコンピュータビジョン

AOセンサ向け低ビット量子化の論文を紹介します

Graphics2RAW, GlowGANはそれぞれ以下の論文です．Graphics2RAW: Mapping Computer Graphics Images to Sensor RAW ImagesGlowGAN: Unsupervised Learning of HDR Images from LDR Images in the Wild

Neural architecture search (supernet編)

Neural architecture search (スケーラブル・動的なアーキテクチャ編)

【Deep Learning研修（発展）】系列データモデリング (RNN / LSTM / Transformer)　第１２回「GPT-2, GPT-3」