
はじめに
こんばんは。急に暑くなって、夏に怯えるささざめです。
さて早速本題。先日、人気はてなブロガーの骨しゃぶりさんが「音声入力でブログを書く」という記事を公開されていました。
多くのブロガーが「自分もやってみたい!」と思ったのではないでしょうか? というわけで、今回はこのささざめブログでも音声入力を試してみることにしました。
ただ、単純に骨しゃぶりさんのやり方をそのまま真似しても面白くないので、いくつか前提を設けました。
- お金がかからないこと
- PC上だけで完結すること
……本当はもう一つくらい条件を考えたかったのですが、思いつかなかったのでこの2つで進めます。
音声入力の方法について
元記事では、スマホのChatGPTアプリの対話モードを使って音声入力をしていたようです。しかし、私はスマホを使うのが少し面倒なので、PCだけで完結させたいと考えました。
調べてみると、Windows 11だと、標準でAzure Speechを使った音声入力機能が搭載されているとのこと。試しに Windowsキー + Hキー を押してみると、音声入力モードが起動しました。
メモ帳を立ち上げ、マイク付きのヘッドセットを装着して喋ってみると、思ったよりも精度が高い! 多少「えー」とか「うーん」といったフィラーが入りやすい感じはありますが、文字起こしとしては十分実用レベルです。
PCからChatGPTにアクセスして音声入力する方法もありますが、一日の使用制限(ありますよね? なかったらこっちでもいいかも)などを考えると、まずはWindows標準の音声入力を試すのが良さそうだと思いました。
記事化の流れ
音声入力ができるようになったので、次は記事化の流れを考えてみます。
最初は、「一文ずつ喋って、その都度添削する」方法を試しました。しかし、これは単純に キーボードで入力したほうが早い かもなぁと言う感じ。単純に添削がいちいちめんどくさい。
では、「とにかく喋り続けて、そのまま記事にする」方式はどうか? 骨しゃぶりさんが紹介されていたのはこのスタイルかと思います。これも試してみたのですが、個人的に、話の着地点を見失いやすく、思ったより短い記事になってしまったり、内容に悩んでしまいやすいかもしれないなと感じました。
先に書きたい内容が決まりきっていなくて、とりあえずメモレベルで吹き込んだものをまとめてもらう、みたいな用途だとこっちのほうがいいのかもしれないけれど、逆に書きたい内容が決まっているときは微妙かも。
最終的に、現時点で自分に一番あっていそうかなぁと感じた方法は「先に見出しを自分で作っておいて、それをベースに喋る」「あとで追加したくなったときは、その見出しのグループに追記する」みたいなやり方。
この方法だと、喋るときの迷いが減り、後で整理もしやすいです。GPTに一気に文章を流し込んでまとめさせる方法もありますが、話が飛んだり、余計な部分が出てくることが多い気がしたのでした。(まあ正直、使い方次第でもっと効率的に出来るだろうとは思いつつ……笑)
AIに記事化を依頼してみる
ここが今回の肝とも言える部分ですが、 AIに記事化を頼む ことも試してみました。
今回は ChatGPT に依頼。事前に「ささざめブログ」の文体を維持するような システムプロンプト を作成し、それに基づいて記事化をお願いしました。(実際には、直接GPTに渡してるので、システムプロンプトとはちょっと異なるかもしれないですが、便宜上そう呼びます)
実際にはこんな感じ(恥ずかしいので一部伏せています)。
# システムプロンプト あなたは「ささざめブログ」の執筆者です。以下の要件に従って、音声入力された記事の草案をブログ記事の形式に加工、添削、校正してください。 ## 要件 1. **筆者のパーソナリティ**: - (筆者の特徴的なパーソナリティを記載) 2. **口調や文体の特徴**: - 基本的には「ですます」調ですが、しばしば言い切りの形を使用し、形式張った敬語表現は極力避けます。 - 一人称は「私」を使用し、親しみを込めた表現を使います。 - 読者に問いかけるスタイルを取り入れ、対話的な雰囲気を作ります。 3. **出力形式**: - 出力はプレーンなMarkdown形式で行い、コピペしやすくしてください。 - 見出し、リスト、引用などのMarkdown構文を適切に使用し、読みやすさを考慮してください。 4. **その他の含むべき項目**: - 文章の流れをスムーズにするために、必要に応じて接続詞や遷移句を追加してください。 - 誤字脱字、文法ミスをチェックし、適宜修正してください。 - 読者が興味を持てるようなキャッチーなタイトルも提案してください。 - 日常的な言葉遣いやスラングを取り入れ、堅苦しさを避けるようにしてください。 - 見出しは維持してください。 このプロンプトに従い、私が提供する音声入力の草案を加工してください。 # 以下、音声入力部分 ...
ちなみにこれも、GPTさんにお願いしながら作ってます。ClaudeとGPTとにそれぞれ頼みながら、いいとこ取りしてる感じ。
Chat GPTのほうで最終的なものを入力すると、記事執筆モードみたいなのになって、コピーボタンでコピーするとしっかりmarkdown形式で出力されたのでした。中身もわりといい感じ。全然使えるじゃん、って感じでした。
最後に手直し
いい感じではありましたが、やはり依頼した記事をそのまま使うのではなく、最後に 自分の目で見直して修正 するのが重要そうですね。
面倒っちゃ面倒なんですが、逆に考えると普段、自分でブログを書くときはあまり見直しをしていないのが、この方法だと 必然的に一度目を通す ことになるので、変な表現や誤字を減らせるメリットがありそうです。
まあこのへんは、システムプロンプトもうちょっと頑張ったり、仕組み利用してもっと元記事食わせたりすれば、修正の量も減っていくんでしょうがね。要改善なところです。
まとめ
今回、 音声入力を使ってブログ記事を書く という試みをしてみました。
実際やってみた感想としては、
- 思ったよりも精度が高い
- 喋るだけなので確かにタイピングより楽
- 文の流れが自然になりやすい(かも)
といったメリットがある一方で、
- 日常系のブログとかエッセイを書くには、GPTに文体とかを再現してもらうためのプロンプト作りが難しい
- 見直しのコストはやっぱりかかる
といった課題も見えてきました。まあでも、音声入力ベースで作り上げていくのは、今後確実にメジャーになっていきそうな気がしています。(まあそもそも、個人ブログというもの自体先細りなんじゃ、という懸念もあるんですが……笑)
そんなわけで、「私も音声入力でブログを書いてみたい!」という方、ここに乗せたやり方なら無料で出来ると思うので、参考にしてみてはいかがでしょうか。
また、「こんなやり方もあるよ!」というアイデアがあれば、ぜひ教えてくださいね。
それでは、今日はこのへんで!