プログラム言語やSQL、テキストエディタで使用可能な「正規表現」を使う際の、考え方と処理のイメージを、具体的な例題を交えて解説します。第1回は肯定先読み・肯定戻り読みの使い方を紹介します。
『 by.奥村晴彦 』
こんなことやって意味あるのかどうか正直言って迷いました。プログラマはたいてい知っているような内容だし見る人もいないんじゃないかと思いましたが、これからプログラミングを始めてみようという方にとっては参考になるかもしれないし、何よりも自分にとって頭の中を整理できたりするので、これから定期的にやっていこうかと考えてます。 ところで、紹介する内容は...
gearman いいよ、と方々で言われている昨今ですが、しかしながら gearman がなんなのかよくわからなかったり、どういう動作をするのかわからなかったり、gearman と TheSchwartz の違いがわからなかったりする方が多いようです。 そのあたりを 6A 以外で brad products を日本一使いこんでると思われる弊社が軽く解説してみようかと。 なぜ JobQueue が必要なのか 1つのプロセスで複数のジョ...
スズメはコメやパンくず、虫などを小さくしたり、軟らかくしたりしてツバメに与えていた。ツバメは本来、虫しか食べないとされるが、スズメが運んだものは何でも食べていた。夜は2羽並んで眠っていた。
ニューラルネットワークの主要なアルゴリズムであるバックプロパゲーション法を、車両のナンバープレートの自動読取りへの応用例で紹介します。 完成版のアプレットを見る アプレットの操作方法は、プログラムの使い方を参照してください。 対象読者 パターン認識に興味を持ち、特にニューラルネットワークを用いる方法に関心のある人。 必要な環境 J2SE 5.0を使っていま...
『お気楽 Python プログラミング入門』、『お気楽 Python/Tkinter 入門』、『Ruby Junk Scripts』の著作権は筆者「広井誠 (Makoto Hiroi) 」が保持します。無断使用や無断転載は禁止いたします。 『お気楽 Python プログラミング入門』、『お気楽 Python/Tkinter 入門』、『Ruby Junk Scripts』で作成したプログラムはフリーソフトウェアとします。ご自由にお使いください。プログラムの改造や配布もご...
形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基本中の基本ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほど...
ファイルシステムやRDBMSは、なんらかの形でロック機構を持っている。ロック機構がなくてはデータの一貫性が保てない。 分散環境ではロック機構が性能の鍵になる。ノードの数を増やせば記憶容量が増える(スケールアウトする)のは自明だが、ロック機構はそうではない。 また、各ノードに備わるキャッシュ(ローカルキャッシュ)も問題になる。無効になったローカルキャ...
『 Minimax,αβpluning,andsoon. 』
「どう書く?org」へようこそ! このサイトは出されたお題をいかに解くか競い合う、 プログラマのためのコロシアムです。 最新のお題 指定されたフォルダ以下のゴミ掃除 指定したフォルダ以下にある、ファイル名が"~"で終わるファイルを削除するプログラムを作ってください。 指定したフォルダの中にあるフォルダのさらに中にあるファイルも削除の対象です。
Graphviz というツールは、 「DOT 言語」という言語で書かれたグラフ表現を GIF や PNG などのファイルフォーマットに変換してくれるシステムです。 本家のホームページは http://www.graphviz.org/ です。 ここでは、Graphviz のインストールと使い方についてまとめてみました。 なお、ここでインストール/使用する Graphviz は version 2.4(2005-08-01 現在)です。 また、インストール先の環境は ...
を使って文字列のハッシュ(ダイジェスト)をチェックし、同一の値を示す部分を重複しているとみなしてレポートしてくれます。つまり、プロジェクト内のコードのコピーペーストを検出するツールとして使えるというわけ。 ためしに Plagger で試してみた結果は rabin.txt のようになりました。プラグインの register_hook や CustomFeed での Feed オブジェクトの生成など、イディオム的...
Yahoo!デベロッパーネットワーク(YDN)に 「日本語係り受け解析Webサービス」が登場しました。 - Yahoo!デベロッパーネットワーク - テキスト解析 - 日本語係り受け解析 http://developer.yahoo.co.jp/jlp/DAService/V1/parse.html 「係り受けってなに?」という方もいると思うので、 以下、まったくもって厳密ではない、適当な解説を試みます。 (1) 日本語をコンピューターで処理するには、 ...
『 dolipoは、通常のプロキシとは違いMac上のローカルで動作させ、ネットワークの高速化に特化した個人用プロキシアプリケーションです。プロキシでネットワークの高速化というと、キャッシュ技術を思い浮かべる方も多いと思いますが、dolipoではさらに先進的な高速化技術が取り入れられています。 』
先日の「習作UI: 縁日の金魚を再現してみた」というエントリー。特に深い意味もなく作ったのだが、これからソフトウェア・エンジニアを目指す学生さんのためにひとこと付け加えておくと、この業界で本気で成功しようと思ったら、この程度のプログラム...
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 本文抽出モジュール ExtractContent ダウンロード (右クリックして「名前をつけて保存」してください) 本モジュー...
突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。一般に&...
私の仕事は、DBエンジニアです。望んでデータベースの世界へ来たわけではなく、辞令によって、入社1年目の私はOracleと向かいあうことになりました。当初、私はデータベースが面白くありませんでした。「ネットワークは花形、データベースは日陰」という言葉も囁かれていました。今でも囁かれているかもしれません。 ですが、しばらくデータベースを触っているうちに、こ...
『 >>「われわれムーターのマリモでは、形態素に分割する精度は95%程度。すでに十分高いですが、高度な形態素解析エンジンでは98%と、もっと高い。精度では勝てない」(稲村氏)。既存の形態素解析エンジンと真っ向から 』