- 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

▼テーマ
単語のベクトル化にも使われる tf-idf です。
検索というテーマを軸に、数式の意味ごと解説しています。
最終的には、 Elasticsearch に使われている Lucene's Practical Scoring Function も解説します。

▼関連プレイリスト
自然言語処理系プレイリスト
https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4...
▼テーマ
単語のベクトル化にも使われる tf-idf です。
検索というテーマを軸に、数式の意味ごと解説しています。
最終的には、 Elasticsearch に使われている Lucene's Practical Scoring Function も解説します。

▼関連プレイリスト
自然言語処理系プレイリスト
https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR

▼目次
00:00 OP
==== 1.背景 ====
00:43 tf-idfが使われる場面
01:26 tf-idfはどんな問題を解決するのか?
==== 2.定義&意味 ====
03:34 tf-idfの気持ち
04:23 記法の設定
06:19 tf-idfの定義
06:38 どんな計算なのか
08:11 tfの意味
09:01 idfの意味
10:43 具体例で実際にtf-idfを見てみる
12:41 logの理由
15:09 本日のまとめ
15:52 ED

▼参考文献
ネットでググったらたくさん出ます (^^)
・tf–idf - Wikipedia https://en.wikipedia.org/wiki/Tf%E2%80%93idf
特に、英語 wiki は意外としっかり書いてあるのでおすすめです!

・機械学習・深層学習による自然言語処理入門 (Compass Booksシリーズ) | 中山 光樹
https://amzn.to/3g8lJ5o
基本的な自然言語処理の機械学習手法がコードとともによくまとまっています!
数式系ではなく、実装系なので、手を動かして色々理解できるかも!

・言語処理のための機械学習入門 (自然言語処理シリーズ) | 高村 大也, 学, 奥村
https://amzn.to/3lAEqQl
自然言語処理の古典的な方法論について、特に LDA とその数理的背景についてよくまとまっています。
数式大好き人間は一度読んでみると楽しいと思います。

▼終わりに
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、TwitterのDMからお願い致します。
動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集:AIris Solid (妹) (Twitter: https://twitter.com/AIris_Solid/ )
=======
Logo: TEICAさん ( https://twitter.com/T_E_I_C_A )
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん ( https://twitter.com/W01fa )
OP==== 1.背景 ==== - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

OP==== 1.背景 ====

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:00:00 - 00:00:43
tf-idfが使われる場面 - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

tf-idfが使われる場面

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:00:43 - 00:01:26
tf-idfはどんな問題を解決するのか?==== 2.定義&意味 ==== - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

tf-idfはどんな問題を解決するのか?==== 2.定義&意味 ====

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:01:26 - 00:03:34
tf-idfの気持ち - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

tf-idfの気持ち

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:03:34 - 00:04:23
記法の設定 - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

記法の設定

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:04:23 - 00:06:19
tf-idfの定義 - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

tf-idfの定義

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:06:19 - 00:06:38
どんな計算なのか - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

どんな計算なのか

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:06:38 - 00:08:11
tfの意味 - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

tfの意味

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:08:11 - 00:09:01
idfの意味 - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

idfの意味

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:09:01 - 00:10:43
具体例で実際にtf-idfを見てみる - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

具体例で実際にtf-idfを見てみる

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:10:43 - 00:12:41
logの理由 - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

logの理由

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:12:41 - 00:15:09
本日のまとめ - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

本日のまとめ

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:15:09 - 00:15:52
ED - 【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア

ED

【自然言語処理】tf-idf 単語の情報量を加味した類似度分析【Elasticsearch への道①】#084 #VRアカデミア
2020年12月04日
00:15:52 - 00:16:51
AIcia Solid Project

AIcia Solid Project

🎉 37,000 人達成! 🎉

【予測】4万人まであと88日(2023年1月3日)

チャンネル登録 RSS
データサイエンスVtuber アイシア=ソリッド(Aicia Solid)です。
機械学習、統計、ディープラーニング、AIの動画に加えて、たまに趣味で数学の動画をアップしています。

公式サイトはこちら → https://sites.google.com/view/aicia-official/top

動画の質問、感想等ございましたら、コメント欄やTwitterにどうぞ!
お...
データサイエンスVtuber アイシア=ソリッド(Aicia Solid)です。
機械学習、統計、ディープラーニング、AIの動画に加えて、たまに趣味で数学の動画をアップしています。

公式サイトはこちら → https://sites.google.com/view/aicia-official/top

動画の質問、感想等ございましたら、コメント欄やTwitterにどうぞ!
お仕事、コラボのご依頼は、TwitterのDMからお願い致します。

Twitter: https://twitter.com/AIcia_Solid/
Editor: AIris Solid (妹) https://twitter.com/AIris_Solid/
Logo: TEICAさん https://twitter.com/T_E_I_C_A
Model: http://3d.nicovideo.jp/works/td44519
Model by: W01fa さん https://twitter.com/W01fa

(※ニコニ立体ちゃん公式(株式会社ドワンゴ)とは繋がりのない個人のProjectです。)

Timetable

動画タイムテーブル

動画数:98件

OP - 【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門

OP

【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門
2022年09月25日
00:00:00 - 00:01:31
記号と設定の確認 - 【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門

記号と設定の確認

【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門
2022年09月25日
00:01:31 - 00:03:43
データ行列Xと分散・共分散行列∑ - 【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門

データ行列Xと分散・共分散行列∑

【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門
2022年09月25日
00:03:43 - 00:13:19
データ行列と変数X_a, X_b - 【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門

データ行列と変数X_a, X_b

【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門
2022年09月25日
00:13:19 - 00:17:24
本日のメインディッシュ(数式) - 【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門

本日のメインディッシュ(数式)

【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門
2022年09月25日
00:17:24 - 00:21:28
本日のまとめ - 【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門

本日のまとめ

【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門
2022年09月25日
00:21:28 - 00:24:20
ED - 【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門

ED

【共分散行列の代数】よく使う事実の背後には抽象数学の透明な美しさがあります【行列12分散・共分散行列】 #145 #VRアカデミア #線型代数入門
2022年09月25日
00:24:20 - 00:25:23
右は常に反転ですねー - 【量子計算③】2量子ビットと量子計算における関数【ユニタリでないと実現できない】 #144 #VRアカデミア #量子計算 #量子コンピューター

右は常に反転ですねー

【量子計算③】2量子ビットと量子計算における関数【ユニタリでないと実現できない】 #144 #VRアカデミア #量子計算 #量子コンピューター
2022年09月17日
00:19:45 - 00:25:01
OP - 【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門

OP

【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門
2022年09月09日
00:00:00 - 00:01:01
記号と設定の確認 - 【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門

記号と設定の確認

【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門
2022年09月09日
00:01:01 - 00:02:19
共分散を計算しよう(チュートリアル) - 【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門

共分散を計算しよう(チュートリアル)

【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門
2022年09月09日
00:02:19 - 00:05:01
共分散を計算しよう(本題) - 【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門

共分散を計算しよう(本題)

【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門
2022年09月09日
00:05:01 - 00:13:23
本日のまとめ - 【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門

本日のまとめ

【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門
2022年09月09日
00:13:23 - 00:16:45
ED - 【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門

ED

【共分散行列の意味】共分散行列はベクトルに変数としての魂を与える【行列11分散・共分散行列】 #143 #VRアカデミア #線型代数入門
2022年09月09日
00:16:45 - 00:18:30
量子とベイズって何が違うんすか……()というダメ人間ですが楽しみです - 【量子計算】量子ビットと確率【重ね合わせの原理をちゃんと理解しよう!】 #140 #VRアカデミア #量子計算 #量子コンピューター

量子とベイズって何が違うんすか……()というダメ人間ですが楽しみです

【量子計算】量子ビットと確率【重ね合わせの原理をちゃんと理解しよう!】 #140 #VRアカデミア #量子計算 #量子コンピューター
2022年08月12日
00:02:00 - 00:20:57
1つ希望があるのですが、もしよろしければのような下限ぎりぎりに出す場合は背景の透過を切るようにしていただけませんか。少し見にくいと思いました。 - 【量子計算】量子ビットと確率【重ね合わせの原理をちゃんと理解しよう!】 #140 #VRアカデミア #量子計算 #量子コンピューター

1つ希望があるのですが、もしよろしければのような下限ぎりぎりに出す場合は背景の透過を切るようにしていただけませんか。少し見にくいと思いました。

【量子計算】量子ビットと確率【重ね合わせの原理をちゃんと理解しよう!】 #140 #VRアカデミア #量子計算 #量子コンピューター
2022年08月12日
00:07:12 - 00:20:57
〜本編ここまで飛ばすとよろし - 【LIVE】内容と見どころを紹介するよ!【分析モデル本配信】 #VRアカデミア

〜本編ここまで飛ばすとよろし

【LIVE】内容と見どころを紹介するよ!【分析モデル本配信】 #VRアカデミア
2022年07月31日
00:14:36 - 01:45:46
私も線形微分方程式の計算などで対角化にはお世話になってます。「ベクトルに行列を何回も書ける」はKrylov部分空間法でおなじみですね。もちろん、実務でバリバリ役立ってます(FFTなどと並んで20世紀のTop10アルゴリズムに数えられているとかなんとか)。 - 【対角化の計算規則】Aはpiをλi倍するのです - 哲学の次は計算を学ぼう【行列⑦対角化】 #136 #VRアカデミア #線型代数入門

私も線形微分方程式の計算などで対角化にはお世話になってます。「ベクトルに行列を何回も書ける」はKrylov部分空間法でおなじみですね。もちろん、実務でバリバリ役立ってます(FFTなどと並んで20世紀のTop10アルゴリズムに数えられているとかなんとか)。

【対角化の計算規則】Aはpiをλi倍するのです - 哲学の次は計算を学ぼう【行列⑦対角化】 #136 #VRアカデミア #線型代数入門
2022年06月24日
00:07:20 - 00:12:17
Regarding ,what if matrix A has identical column vectors?ex:when:A = [1 13 3]a1 = [13] - 【逆行列攻略!】逆行列は縦ベクトルを1に戻すんです【行列④逆行列の基本公式】 #133 #VRアカデミア #線型代数入門

Regarding ,what if matrix A has identical column vectors?ex:when:A = [1 13 3]a1 = [13]

【逆行列攻略!】逆行列は縦ベクトルを1に戻すんです【行列④逆行列の基本公式】 #133 #VRアカデミア #線型代数入門
2022年05月13日
00:03:22 - 00:16:22
Interestingly, once I’ve got the view, all the combinations of matrix and vector look like examples at  ! - 【Axって何だろう?】行列とベクトルの積は電車の乗り継ぎ【行列②行列とベクトルの積】 #131 #VRアカデミア #線型代数入門

Interestingly, once I’ve got the view, all the combinations of matrix and vector look like examples at !

【Axって何だろう?】行列とベクトルの積は電車の乗り継ぎ【行列②行列とベクトルの積】 #131 #VRアカデミア #線型代数入門
2022年04月15日
00:04:50 - 00:10:52
R^mは実数のm次元ベクトルという意味ですか? - 【線形代数シリーズ開始!】行列の理解はまずここから!【行列①単位ベクトルの行き先】 #130 #VRアカデミア #線型代数入門

R^mは実数のm次元ベクトルという意味ですか?

【線形代数シリーズ開始!】行列の理解はまずここから!【行列①単位ベクトルの行き先】 #130 #VRアカデミア #線型代数入門
2022年03月11日
00:03:05 - 00:11:29
OP - 【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア

OP

【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア
2022年02月11日
00:00:00 - 00:00:45
数量化Ⅳ類のおさらい - 【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア

数量化Ⅳ類のおさらい

【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア
2022年02月11日
00:00:45 - 00:01:36
状況設定と問題の定式化 - 【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア

状況設定と問題の定式化

【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア
2022年02月11日
00:01:36 - 00:06:59
最適化問題を解く! - 【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア

最適化問題を解く!

【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア
2022年02月11日
00:06:59 - 00:13:58
まとめ - 【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア

まとめ

【数量化IV類の数理】対称行列を直交行列で対角化するだけです【数量化理論 - 数理編 vol. 9】 #128 #VRアカデミア
2022年02月11日
00:13:58 - 00:19:13