RSS

「音声認識」 - おすすめピックアップ動画

※本サイトに掲載されているチャンネル情報や動画情報はYouTube公式のAPIを使って取得・表示しています。

Videos

動画一覧

動画数:5件

pythonで音声からの文字起こしと翻訳をしてみよう!#python  #ずんだもん

pythonで音声からの文字起こしと翻訳をしてみよう!#python #ずんだもん

今回はpythonを使って音声からの文字起こしと翻訳をしてみようと思います。ついでに、作成した字幕データを使って日本語で動画を聞けるようにしてみたいと思います。 ★pythonコード ・前半:https://k-dm.work/ja/finance/nlp/mp32srt/ ・後半:https://k-dm.work/ja/finance/nlp/srt2jp/ ※本動画で使用したコードを用いたあらゆる結果について一切の責任は負えません。また、作成された文字起こしデータと翻訳データは正しさが保証されたものではありません。 ----------------------------- ★参考文献・使用したモデル ・openai/whisper: https://github.com/openai/whisper ・staka/fugumt-en-ja: https://huggingface.co/staka/fugumt-en-ja ・ニューラル機械翻訳モデルFuguMT: https://staka.jp/wordpress/?p=413 ----------------------------- ★お借りしたもの ・音声:VOICEVOX (https://voicevox.hiroshiba.jp/) ・立ち絵:ずんだもん立ち絵素材・坂本アヒルさま(https://seiga.nicovideo.jp/seiga/im10788496) ・動画内で実験のために使用した音声 → Flex LNG Q3 2022 Key Takeaways (https://www.youtube.com/watch?v=tsU0jebpux0) ----------------------------- ★タイトル 00:00 タイトル 00:15 音声認識・翻訳・音声合成の実行例 00:52 この動画でやりたいこと 01:48 pythonでの処理手順 02:14 OpenAI whisper 02:52 ①IRの音声データを取得する 03:17 ②pythonで音声認識・翻訳 04:54 ③日本語字幕データ作成 06:12 ④VOICEVOXでの音声データ作成 06:32 ⑤字幕・音声データから動画を作成 ----------------------------- ★SNS twitter:https://twitter.com/intent/follow?screen_name=_K_DM ブログ: https://kdm.hatenablog.jp/ コード置き場: https://k-dm.work/ja/ ----------------------------- ★BGM Flower Field (by FLASH☆BEAT様) https://dova-s.jp/bgm/play13492.html ----------------------------- ★免責事項 本動画で使用したコードを用いたあらゆる結果について一切の責任は負えません。また、作成された文字起こしデータと翻訳データは正しさが保証されたものではありません。 この配信の内容は情報提供と教育のみを目的としたものであり、実際の株の売買を薦めるものではございません。株の売買を行う場合は、事前に必ずご自身で調査をした上で、自己責任でお願い致します。また、翻訳の正しさは保証されておらず、また本コードも動作や出力に関しては 一切の責任を負えません。 ----------------------------- ★このチャンネルについて 週に一回ペースで機械学習・データサイエンスに関する情報を発信します!よろしければチャンネル登録お願いします。大変励みになります。 #機械学習 #データ分析 #Python #機械学習 #AI #データ分析 #データサイエンス #データサイエンティスト #Python #scikit-learn #Kaggle #データマイニング #G検定 #E検定 #人工知能 #わかりやすく #初学者
2022年12月11日
00:00:00 - 00:07:55
【ICLR2023論文解説】学習済みVision Transformerを2倍高速化!?Token削減の新手法: Token Merging【cvpaper.challengeコラボ企画】

【ICLR2023論文解説】学習済みVision Transformerを2倍高速化!?Token削減の新手法: Token Merging【cvpaper.challengeコラボ企画】

【キーワード】 深層学習, 画像認識, 音声認識, Vision Transformer, 高速化, Token merging, ToMe 【紹介論文】 Token Merging:Your ViT But Faster (ICLR 2023 notable top-5%) 【関連リンク】 OpenReview: https://openreview.net/forum?id=JroZRaRw7Eu 【解説者】 名前:廣瀬翔太 質問はコメントまたはTwitterからお願いします Twitter: sayuki_study
2023年05月09日
00:00:00 - 00:16:40
whisper・ChatGPT・VOICEVOXを組合わせて会話できるエージェントを作ってみよう  #python  #ずんだもん

whisper・ChatGPT・VOICEVOXを組合わせて会話できるエージェントを作ってみよう #python #ずんだもん

whisper・ChatGPT・VOICEVOXを使って会話ができるエージェントを作ってみます。そして、会話の際に自分の日記からデータを持ってきてそれに基づいて会話をさせてみようと思います。 ちなみに、動画のデモでは以下のページからデータを取得してくるようにしています。 □コロンビア:https://geopinning.space/rule/cs_america/colombia/ □イギリス:https://geopinning.space/rule/europe/united-kingdom/ ※02:58 「英語を音声認識」と書いてますが「日本語を音声認識」の誤字です ※ChatGPT等の各種ツールは非常に開発が早いので、使用する場合は必ず最新のドキュメントをご確認ください。 ----------------------------- ●OpenAI chatGPT:https://openai.com/blog/chatgpt/ ●OpenAI whisper:https://openai.com/research/whisper ●VOICEVOX:https://voicevox.hiroshiba.jp/ ●Beautiful Soup: https://beautiful-soup-4.readthedocs.io/en/latest/ ●Hugo: https://gohugo.io/ ----------------------------- ★目次 00:00 タイトル 00:56 実際に作成したシステムのデモ 02:58 システムの構成 06:49 感想 ----------------------------- ★SNS twitter:https://twitter.com/intent/follow?screen_name=_K_DM コード置き場: https://k-dm.work/ja/ ----------------------------- ★BGM 週末京都現実逃避 (by しゃろう様) https://dova-s.jp/bgm/play10961.html ----------------------------- ★このチャンネルについて 機械学習・データサイエンスに関する情報を発信します!よろしければチャンネル登録お願いします。大変励みになります。 #機械学習 #データ分析 #Python #機械学習 #AI #データ分析 #データサイエンス #データサイエンティスト #Python #scikit-learn #Kaggle #データマイニング #G検定 #E検定 #人工知能 #わかりやすく #初学者
2023年04月08日
00:00:00 - 00:09:42
データサイエンスと音声処理技術 ②音声認識入門 (S2-110)

データサイエンスと音声処理技術 ②音声認識入門 (S2-110)

滋賀大学MOOC「大学生のためのデータサイエンス(Ⅰ)」より #数理 #データサイエンス #AI
2020年06月25日
00:00:00 - 00:11:24
「顔画像処理を用いた音声を利用しない音声認識技術(読唇技術)の改善」 九州工業大学 大学院情報工学研究院 知能情報工学研究系 准教授 齊藤 剛史

「顔画像処理を用いた音声を利用しない音声認識技術(読唇技術)の改善」 九州工業大学 大学院情報工学研究院 知能情報工学研究系 准教授 齊藤 剛史

「九州工業大学 新技術説明会」(2019年12月10日開催)にて発表。https://shingi.jst.go.jp/list/kyutech/2019_kyutech.html 【新技術の概要】 読唇技術は、声の出せない障害者のコミュニケーション支援や騒音環境における音声認識の利用など次世代インタフェースの一つとして注目されています。本技術では、顔画像処理を用いて発話者の属性情報や表情特徴を用いることで従来の読唇技術の精度を改善します。 【従来技術・競合技術との比較】 音声認識技術は実利用されていますが、発声が困難な発話障害者や騒音環境下、声を出しにくい公共の場所などでは利用が難しい問題があります。また従来の読唇技術では発話者の属性情報等は考慮されていません。本技術は従来の読唇技術よりも認識精度の改善を可能としました。 【新技術の特徴】 ・発話者の属性情報や表情特徴の導入 ・発話障害者のコミュニケーション支援の実現 ・音声情報不要の雑多な騒音環境や音声が収録できない環境における発話内容認識の実現 【想定される用途】 ・携帯電話・無線機等の音声通信分野 ・医療・福祉現場 ・玩具・ゲーム等のアミューズメント分野 #情報
2020年01月06日
00:00:00 - 00:21:21