-------- (--) --:--

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
2012-10-03 (Wed) 00:41

アンチWiki編集メモ(10月2日)

・会内経典ページ作成。
・国会図書館の検索結果は記事タイトルも出る?発行日は発売日じゃない。

国会図書館の書誌検索結果リストから書誌名と書誌情報へのリンク、著者、出版社のみを抽出する正規表現メモ。
・リンク開始タグ、Javascript表現以外を削除する置換正規表現。もっとスマートな書き方ないかなぁ?#CCCとか入ってるの残ってるし。全角文字のみって正規表現ではどうなるのかね?
<[^a][A-Za-z0-9]*>|<[^a][A-Za-z0-9]* [A-Za-z0-9]*=("[A-Za-z0-9\?\. ;:#/_-]+" ?)+>

・Javascriptを削除して改行のみにする正規表現。残ったゴミは範囲選択でするか。あちゃ発行日きえてもうた!後で考えよう。
//<\!\[CDATA\[\n|//\]\]>\n|[A-Za-z0-9\)\(\}\{\]\[\.\$ ;:#/',_=+-]+\n|[^:]//.+\n → \n

・imgタグ削除
<img alt="新しいウインドウが開きます" class="guidance " src="/images/ndl/spacer\.png\?\d+" height="1" width="1">

・URLを除くリンク開始タグや属性削除
<a href="|" class="external" target="ndl_opac|">

・蔵書場所URL削除
http://id\.ndl\.go\.jp/bib/\d+

・不必要な項目削除
記事・論文|図書|NDL雑誌記事索引|記事・論文|国立国会図書館蔵書|公共図書館蔵書

・余計なインデント削除
  +\n

・余計な改行を削除
\n\n+ → \n
関連記事
スポンサーサイト

コメントの投稿

管理者にだけ表示を許可する

コメント

プロフィール

ルジェ

Author:ルジェ
幸福の科学の元二世信者。
2005年頃にファルコン告発、
関谷告発を読んで退会。

2ch『幸福の科学』統合スレハンネ
観自在になりたい凡人
初期トリップ:◆eVvwryoaWrQr
2番目トリップ:◆WP3fRcZ/7vgl
最新トリップ:◆FR79JzHC1w
したらば ◆m/n8MbibXR6d

はまりやすく飽きっぽい性格で、
更新と放置がまちまち。

最新記事
最新コメント
月別アーカイブ
カテゴリ
検索フォーム
リンク
ブログランキング


にほんブログ村 哲学・思想ブログ 幸福の科学 批判・告発へ

RSSリンクの表示
ブロとも申請フォーム

この人とブロともになる

QRコード
QR
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。