Movatterモバイル変換


[0]ホーム

URL:


はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマーク
  • テクノロジー
  • プログラマーから見たPDFファイル - アンテナハウス PDF資料室
  • Twitterでシェア
  • Facebookでシェア

気に入った記事をブックマーク

  • 気に入った記事を保存できます
    保存した記事の一覧は、はてなブックマークで確認・編集ができます
  • 記事を読んだ感想やメモを書き残せます
  • 非公開でブックマークすることもできます
適切な情報に変更

エントリーの編集

loading...

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。

タイトルガイドライン

このページのオーナーなので以下のアクションを実行できます

タイトル、本文などの情報を
再取得することができます
コメントを非表示にできますコメント表示の設定

ブックマークしました

ここにツイート内容が記載されますhttps://b.hatena.ne.jp/URLはspanで囲んでください

Twitterで共有

ONにすると、次回以降このダイアログを飛ばしてTwitterに遷移します

1198usersがブックマークコメント93

    ガイドラインをご確認の上、良識あるコメントにご協力ください

    0/0
    入力したタグを追加

    現在プライベートモードです設定を変更する

    おすすめタグタグについて

      よく使うタグ

        プログラマーから見たPDFファイル - アンテナハウス PDF資料室

        ガイドラインをご確認の上、良識あるコメントにご協力ください

        0/0
        入力したタグを追加

        現在プライベートモードです設定を変更する

        おすすめタグタグについて

          よく使うタグ

            はてなブックマーク

            はてなブックマークで
            関心をシェアしよう

            みんなの興味と感想が集まることで
            新しい発見や、深堀りがもっと楽しく

            ユーザー登録

            アカウントをお持ちの方はログインページ

            記事へのコメント93

            • 注目コメント
            • 新着コメント
            golden-lucky
            書きました!

              その他
              welchman
              テキスト抽出はxdoc2txtが便利ですよ。pdf以外にも、WORD,EXCEL,一太郎等にも対応。http://ebstudio.info/home/xdoc2txt.html

                その他
                jiro68
                そもそもPDF技術の元になったPostScriptがプリンターへの印刷や画面描画の為の言語だったから、意味のあるテキストを抽出するようになっていないよね。そういえばWYSIWYGなんて言葉はすっかり聞かなくなったな。

                  その他
                  koji28
                  PDFからテキストを抽出してだな…という案件からは全力で逃げたほうが良いと改めて分かった(´・ω・`)(そこじゃない)

                    その他
                    Ho-oTo
                    個人ブログで似た記事読んだことあるなと思ったら書いたの同じ人だった

                      その他
                      tinsep19
                      これを読むに、一旦表示して、OCRで読ませる際に、フォントや文字のヒントを提供するみたいのが一番精度高そうなんかな?

                        その他
                        mayumayu_nimolove
                        今までPDFのこんな濃厚な解説見たことない

                          その他
                          tettekete37564
                          PDF は最終アウトプット、デジタル上の印刷物としてのフォーマットなのでデータソースとして使おうというのが間違いなんだが。

                            その他
                            sho
                            結論が「pdftotextを使え。以上」みたくなってて笑った。まぁそうだよねぇ……

                            その他
                            toge
                            各種ソフトで試しているの凄い!

                              その他
                              nekonyantaro
                              PDFが凄い技術の詰まった物なのは良く判る。たまにテキストPDFなのに、コピペすると順番がグチャグチャになったり余計な記号が入るのがあるが、あれは何なの?

                              その他
                              misshiki
                              PDFからテキストデータを抽出するなど、自分で実装することはたぶん一生ないけど気になる。

                              その他
                              anone200909
                              分かり易くまとまっています。ただ、PDFからテキストを取り出すには、ここに書かれていることだけではまだまだたりなくて、他にもいっぱい課題があります。

                                その他
                                underd
                                あとでよむ

                                  その他
                                  HHR
                                  コマンドかpythonが無難そう

                                  その他
                                  T-miura
                                  ???javaでも、pythonでもpdfからデータ抜くためのライブラリあるから、頑張って仕様書なぞよもなくても、それでよくね?(結論はそれっぽいが)この前、10GB以上のpdf、elasticsearchにいれて全文検索できるようにしたぞ?

                                    その他
                                    kirakking
                                    古の資料(論文とか)をスキャンしたPDFのフォントをなんとか入れ替えられないかと思っていたけど、そうか難しいのか。

                                    その他
                                    diveintounlimit
                                    PDFの仕様書のPDFって1000ページ以上あるんだよな。。読むのを断念した。

                                      その他
                                      htnmiki
                                      すごい

                                        その他
                                        garbagephilia
                                        組版文化的にはDTP系のpostscriptファイル、TeX系のdviファイルというデバイス出力前のフォーマットがそれぞれにあったが、Adobe優勢のもとPDFというフォーマットに落ち着いたと認識している。

                                          その他
                                          rryu
                                          PDFの中身は「スタックマシンなPostScriptで書かれたプログラム」で最終的にそういう絵になればいいだけだからやり方は様々という…

                                          その他
                                          strawberryhunter
                                          参考になるとか言ってる時点でお前らにPDFをゼロから扱えるわけが無い。既製のライブラリでも使うのがせいぜいだろう。

                                          その他
                                          moshimoshimo812
                                          ぜんぜん関係ないけど、2000年代初頭までのAcrobat Readerは起動にめちゃめちゃ時間がかかって、PDFを開くのは地雷だった。それがここまで汎用的なフォーマットになるとは思わなかった。

                                            その他
                                            oqzl
                                            勉強になる。とりあえず必要なときには印刷用のPDFとテキストファイルを両方用意することにしてる

                                              その他
                                              punkgame
                                              イラレデータの延長だと思ってたので特に不思議に思ったことはなかったな…

                                                その他
                                                nakachop
                                                文体というか文章のリズムというのかな?スキ(内容に関係ない感想)

                                                その他
                                                hatayasan
                                                濃厚な解説。

                                                その他
                                                marmot1123
                                                強い人だ……と思ったらgolden-luckyさんじゃん。

                                                  その他
                                                  khtokage
                                                  golden-luckyさん、アンテナハウスの方だったのか。さすがだ。

                                                    その他
                                                    y-kobayashi
                                                    pdf

                                                      その他
                                                      hazardprofile
                                                      2年前読みたかった記事・・・

                                                        その他
                                                        wdoomer
                                                        生成するソフトによって違うのか。reader凄いな。

                                                          その他
                                                          fotus4
                                                          3万のPDFファイルからテキストデータを抽出して検索できるプログラム書いてもらう仕事発注したけど、裏側はこんなだったのな

                                                            その他
                                                            fossilcat
                                                            いつか参考にするときがあるかもしれない……

                                                              その他
                                                              rasterson
                                                              画像とフォント意外は基本的にテキストなのだが、Deflate圧縮されてバイナリになっているだけ。圧縮解いたら構造はわかるよ。確かにテキスト取り出そうとはしない方がいい。特に日本語は難しいね。

                                                                その他
                                                                tarotarorg
                                                                これは大事

                                                                その他
                                                                mkusunok
                                                                PDFからテキストを取り出すのがムッチャ大変という記事。アクセシビリティ、読み上げソフト用のメタデータなんかはもっと読み出しやすいかたちでは入ってないのかな?

                                                                  その他
                                                                  crimsonstarroad
                                                                  なるほど難しい

                                                                    その他
                                                                    kei2100
                                                                    PDF spec 仕様

                                                                    その他
                                                                    dekasasaki
                                                                    少し潜ると面白いよね

                                                                      その他

                                                                      注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

                                                                      リンクを埋め込む

                                                                      以下のコードをコピーしてサイトに埋め込むことができます

                                                                      プレビュー
                                                                      アプリのスクリーンショット
                                                                      いまの話題をアプリでチェック!
                                                                      • バナー広告なし
                                                                      • ミュート機能あり
                                                                      • ダークモード搭載
                                                                      アプリをダウンロード

                                                                      関連記事

                                                                        usersに達しました!

                                                                        さんが1番目にブックマークした記事「プログラマーから...」が注目されています。

                                                                        気持ちをシェアしよう

                                                                        ツイートする

                                                                        プログラマーから見たPDFファイル - アンテナハウス PDF資料室

                                                                        更新日: 2020年8月14日 このページの目的プログラマーは、クライアントから提供されたPDFファイルで、...更新日: 2020年8月14日 このページの目的プログラマーは、クライアントから提供されたPDFファイルで、その要求を実現させようとしたとき、PDFのどんなところを見ているのでしょうか。このページでは、ちょっと珍しい視点でPDFファイルを解き明かしていきます。 自分でプログラムを書いてPDFファイルからテキストデータを取り出したいという人も、ぜひご一読ください。 はじめにPDFファイルをクリックすると、あたかも紙に印刷したかのように、どんなマシンでも同じような見た目で文章や画像がディスプレイに表示されます。 この単純な事実は、日常的にPDFファイルを利用していると当たり前に感じられるかもしれません。しかし、よくよく考えると驚くべきことです。 いったい、どのような仕組みがあれば、「過去から現在に至るさまざまな種類のコンピューターで見た目を変えずに同一の紙面を再現する」という目的を達成でき

                                                                        ブックマークしたユーザー

                                                                        • kompiro2024/11/25kompiro
                                                                        • gurutakezawa2024/07/26gurutakezawa
                                                                        • quodius2023/09/19quodius
                                                                        • techtech05212023/09/01techtech0521
                                                                        • ryocalm2022/11/18ryocalm
                                                                        • iiko_11152022/01/28iiko_1115
                                                                        • mk182021/10/05mk18
                                                                        • fkei2021/09/29fkei
                                                                        • jun_okuno2021/05/07jun_okuno
                                                                        • ChillOut2021/01/14ChillOut
                                                                        • markmamo32020/12/13markmamo3
                                                                        • thotentry_hatebu1972020/12/12thotentry_hatebu197
                                                                        • wktk_msum2020/11/30wktk_msum
                                                                        • a_gnbrnimn2020/11/26a_gnbrnimn
                                                                        • toremiro_kohei2020/11/10toremiro_kohei
                                                                        • n_knuu2020/11/01n_knuu
                                                                        • N_T2020/10/23N_T
                                                                        • mhag2020/09/18mhag
                                                                        すべてのユーザーの
                                                                        詳細を表示します

                                                                        ブックマークしたすべてのユーザー

                                                                        同じサイトの新着

                                                                        同じサイトの新着をもっと読む

                                                                        いま人気の記事

                                                                        いま人気の記事をもっと読む

                                                                        いま人気の記事 - テクノロジー

                                                                        いま人気の記事 - テクノロジーをもっと読む

                                                                        新着記事 - テクノロジー

                                                                        新着記事 - テクノロジーをもっと読む

                                                                        同時期にブックマークされた記事

                                                                        いま人気の記事 - 企業メディア

                                                                        企業メディアをもっと読む

                                                                        はてなブックマーク

                                                                        公式Twitter

                                                                        はてなのサービス

                                                                        • App Storeからダウンロード
                                                                        • Google Playで手に入れよう
                                                                        Copyright © 2005-2025Hatena. All Rights Reserved.
                                                                        設定を変更しましたx

                                                                        [8]ページ先頭

                                                                        ©2009-2025 Movatter.jp