「クローラ」を含む日記 RSS

はてなキーワード: クローラとは

2024-06-11

anond:20240611152934

例えば君も当然知ってると思うがGoFなんかもscrapyに限らず特定ツールライブラリなんかは「知らない」と思うよ

からさ、それならなんで「フレームワーク何使ってる?」なんて質問をしてきたのかって話ね

あと、クローラ再利用性あるよ

なぜWARCファイルで保存しているかと言うと、その方法なら複数サイト統一的に書けるから

クローラからデータ抽出する部分は別途作ってあって、その部分だけ使い捨てになってる

言ってること分かる?

anond:20240611152415

ソフトウウェアエンジニアリング世界って広くて

例えば君も当然知ってると思うがGoFなんかもscrapyに限らず特定ツールライブラリなんかは「知らない」と思うよ

まずその広さを知るのがプロ第一

クローラ開発の文脈で今までのに手を入れるのではなくて一から全部作るのを「フルスクラッチ」と表現するのは英語的にはともかく間違ってはいないと僕は思う

ただ、クローラスクリプトとか普通使い捨てだよね

再利用できるように書かないし実際君もOOPとかよく知らんじゃん

anond:20240611152215

scrapyとか知ってる?普通フレームワーク使ってる?」とクローラ開発の文脈で聞かれればそれをイメージするよね

で、そういったフレームワークは使ってない、って表現するときにどういう単語使う?

フルスクラッチ」でも通じるんじゃないか

anond:20240611145850

pyppeteerでクロール専用に特化したコンテナ運用することのどこがおかしいんだ?

お前、実運用クローラいたことある

anond:20240611145401

馬鹿の発想だね

クローラフルスクラッチで書くぐらいよくあること

まあbs4ぐらいは使うかもしれないが仰々しく「フレームワーク」とは言わんし、要素技術マウント取るような界隈は底辺だよ

anond:20240611142102

なにいってんだこいつ

UAを専用のに変えるのは当該のクローラであることを認証するためであって、javascriptとかは直接関係はないだろ

anond:20240611133620

悪いがクローラRESTでなんてやり取りしないな

データを蓄積して、ストレージアップロードするだけ

Djangoなんて使わん

anond:20240611133255

クローラフレームワークなんて使っていない

いやマイクロサービスだろ?

RESTかなんかでやりとりするだろ?

普通Djangoとか使うでしょ笑

全部書いたの?

anond:20240611120041

言語は?

phppython

フレームワークは?

phpはlaravel, python機械学習にpytorchとsklearnを使っている

インフラ構成は?

AWSマイクロサービスアーキテクチャをやっている。

主に

という4つが動作中。

検索なんかGoogle一強なのに自作エンジンってどういうニッチなの?

コンテンツ検索エンジン」と言ったが、要するに「何のコンテンツなのか」ってのがビジネスとしてキーになってる。

何のコンテンツかを言うと企業名がバレるので言わないが、レシピとか求人かいくらでもあるよな。

そういうメタサーチエンジン(複数コンテンツ提供者のサイトから許可を得てクロールして集約したサイト)を作ってる。

2024-05-22

ニュース記事って少し時間経過すると端から消されてて困るから、誰か魚拓取るクローラでも回してくれねぇかな

2024-04-01

お絵描き趣味人間画像生成AIを使ってみた

その結果が以下。

https://i.imgur.com/UBzZTBy.jpeg

このラフがしっかり仕上げされる形になってて本当にびっくりした。

ここまで来るのに環境構築も含めて5時間もかかってない。

軽く自己紹介すると、ワイはお絵描き趣味IT系仕事をしとる人間や。

最近Twitter上のオタク界隈はAI絵の炎上が絶えない。

Stable Diffusion は出たての頃にちょっと触ってみたんやけど、何百枚も生成して使える絵は片手で数えるほどだったという印象があってそのあとはあまり真面目に技術を追いかけとらんかった。しか最近炎上を見てて、技術的にどこまで可能でどこから不可能になるのか確認したくなり、もう一度環境構築からやり直すことにしたんや。

Stable Diffusion の WebUI の Docker 版を入れて、イラストに特化したモデルを入れて、VAEで画像のボヤけを解決し、噂の ControlNet を入れてみて、手元にある未完成の絵のラフを Canny につっこんでみて、プロンプトとパラメータを調節したらこの出来やで。

正直ワイが仕上げするよりうまいやん、と思ってしまった。

ちなみに貼った生成画像無修正や。プロンプトにキャラ名は入れてないで。

何やろうね、このなんとも言えない気持ちは。

もしもワイにとって絵が道具やったら、簡単に十分なクオリティの絵ができてラッキーだと思っとるところやと思う。

でも、ワイにとって絵は目的やったから、描くこと自体楽しいものやったから、理不尽物言いだとは分かってるけど、それを奪われたような気持ちになったというのが一番近い表現やと思う。

というわけで当初の目的だった技術的に可能な点不可能な点を探るってのは今んところ不発に終わってるわけやけど、ワイが1年以上前の Stable Diffusion に触ってて思っていたところよりもよっぽど先まで話が進んどるんやな、とは思った。

正直、ワイみたいに描くこと自体目的のヤツは少ないやろうな、と思う。大多数の人にとって絵は自分ブログ記事プレゼン資料を飾るための道具や。だから、この技術が今は法的に決着がついていないところを抱えているけど、それにはそう遠くない未来に決着がついて、一般に普及すると思う。

この技術がなかった頃にはもう戻れない。

せやから、ワイはこの技術と向き合っていきたい。それは、積極的に絵に活用するって話やない。この技術がある世界でもまだ絵を描き続けるという選択や。

別にプロでもなんでもないワイがそんなことしてても世の中何も変わることないとは思うけれども、でも、ワイはやっぱり絵を描くのが好きなんや

ワイより上手い人たちはいっぱいいるけど、それでも絵を描き続けてきたんや。機械がワイより上手い絵を生成するようになったからって、そんなの今更やめる理由にはならんで。

追記

ブコメトラバサンガツやで。

一つだけリプするわ。

お前の絵を見たい奴はAIに頼むようになるし、お前の絵はAIのためのクローラしか見に来なくなると思うよ。誰にも伝わらないなら、いったい何のために表現するんだ

絵は鑑賞されてこそ作品という考えやな。

ワイはネットが普及する前から絵を描いてるから、絵を見てもらえてないことが数字化される pixivTwitter も相当気持ち的には辛かったで。

だって誰にも見てもらえないとまでは言わんけど、万バズとかい言葉からは遠く離れた人間や。

でも、見てもらえないという現実と絵が完成したときの見て見て!っていう気持ちの落差があっても絵をやめることはできなかったんや。

から、たとえ核戦争が起きて自分だけ地下シェルターで生き残って誰にも会えずに死ぬのを待つだけになったとしても描ける。そんな気がするんや。

カッコつけすぎやけど、正直な気持ちやで。

2023-12-10

白いピンポン玉を求めて:純粋な娯楽への回帰

僕は弱者男性プログラマーだ。コードを書いて金をもらっている。

そんな僕が、社会学政治に興味を持つ人が多いこのような場で物申すというのはちょっと変だと思うかもしれない。

実際、社会学なんて僕の専門じゃない。

僕はコンテンツ収集するクローラを書いたり、それを検索できるようにインデクシングしたり、あるいはコンテンツクリック履歴に基づいておすすめを表示させたりするプログラムを書いている。

このようなプログラムにも、社会的側面というのは存在する。利用者が何らかの目的によってその検索ツールを利用し、調べたいものにたどり着く。コンテンツプロバイダー、ユーザーシステムという3つのアクター社会形成されている。

社会学者がコンピュータについて語ることがあるぐらいだからプログラマー社会について語ってもいいだろう。

僕が常々思うのは、人々の目的だ。

まり「この検索ツールを使う人は、一体なにがしたいんだ」「コンテンツ提供する側は何が目的なのか」ってこと。

もっと状況を限定するために、「ブログ検索」というツールについて考えてみよう。君がクエリを投げてブログを調べようと思うのは一体どういうときなのか。あるいはブログを書こうと思う人たちの動機は?

動機基本的needとwantによって分類されると考えて良い。need場合、例えば確定申告書の書き方について調べていて、適切な情報を知りたいと言ったケースがそうだ。

wantというのは社会的本能に結びついている場合もあるし、退屈しのぎということもある。承認欲求基本的社会的欲求だし、ハッカー自分の知見を公開するのはちょっとした挑戦だろう。

リーナス法則というのを聞いたことがあるだろうか。マズロー欲求解創設と似たようなもので、「生存」「社会」「娯楽」という3つが人の行動原理だとリーナス・トーバルズは言っている。

ブログを書くのが「生存目的という人はどういう人だろうか。きっとそれ以外に職がなく、必死アフィリエイトで稼ぎを得ている人だろう。

ブログを書くのが「社会的目的」という人は、すごいことをして認められようとか、専門家とつながりたいと考えているかもしれない。

しかし「娯楽目的」というのはもっと崇高なものに思えてくる。ブログ文章を書くのが単純に「楽しい」といった人たちのことだ。

生存社会、娯楽という3つの階段によって、コンテンツの質というもの判断できるのではないかと、僕はそういう仮設を持っている。

アフィリエイト生存目的の発信をしている人たちのコンテンツは、お世辞にも良いとは言えない。クリックベイトであったり、感情を煽ったり、SEOクラックしたり、初心者的だったりする。

社会的目的の人たちはもう少しマシで、認められようとして努力をする姿勢がある。でも、「たくさんの人と繋がりたい」という目的場合ちょっと注意が要る。結局、そういう人は手当たりしだいにアクセスを増やそうとするからコンテンツの質は下がってしまう。

文章を書くのが楽しいけど、人に評価されることはどうでもいい」という人たちのコンテンツを探すことは難しいが、こういう人たちのコンテンツは奥深いことが多く、表面をなぞったようなアフィカスブログとは一線を画している。

しかしこれはコンテンツ提供する人の観点である。これらのコンテンツクロールし、検索できるように整備している「システム」の観点から見ると、どうしても「広告利益」のようなもの重要視されやすい。

Googleであれば、Google広告利益に貢献するようなコンテンツ検索結果で優先表示するかもしれない。そしてそれはまさに生存欲求のためのアフィカスを優先しているのと同じことなのだ。

インターネットがつまらなくなったと言う人たちがいる。僕は次の喩えでこれを説明しようと思う。

昔のインターネットというのは、水の上に白いピンポン玉が浮いていた。この白いピンポン玉は良いもので、楽しいものだ。

ところが徐々に黒いピンポン玉を投下する人たちが増えてくる。黒いピンポン玉は悪いものだ。手を使って沈めようとしないと、白いピンポン玉が見つからない。

そして今のインターネットは黒いピンポン玉が一番上に浮かんでいて、白いピンポン玉はその下で見えなくなっている。

白いピンポン玉は純粋な娯楽精神を持ったコンテンツのことで、黒いピンポン玉は「アクセス数を増やしたい」がために鬱陶しいことをしているコンテンツのこと。

まりインターネットでは年々白いピンポン玉を見つけるためにエネルギーを使う必要が出てきてしまっていて、疲れているとき必然的に黒いピンポン玉を見るしかなくなっているということだ。

リーナスは「文明は、生存社会、娯楽という段階に進んでいく」と言っていたが、インターネットは「娯楽、社会生存」という逆の階段を降りている形になっているように思える。

現段階では、アテンションの総和が一定であるために、ネット人口が飽和し、広告企業利益は落ち込んでいる。純粋な娯楽ではなく、企業の生き残りをかけた戦争突入してしまっているのだ。

僕は今のインターネット社会では、意識的面白いコンテンツを見つけるためにエネルギーをかけることがかなり重要だと思っている。ダラダラとやっていたらアフィカスとバズ目的しか目につかない。

例えば人間が一日に読める文章量なんて限られているから、本当に面白い人を見つけたらRSS購読しておいたほうがいいと思う。

うるさいハエがクソに群がっている。「クソを美味しくないと思うなら、お前がつまらない奴だからだ」と左翼思想家が指摘するかもしれない。

僕はクソよりもステーキが好きだ。あなたのようなハエではなく、人間からだ。

2023-07-11

TATSUROの罪は何か、「正しい」以外は失敗になる社会について

つらつらと今のネット社会について思ったことがあるので、前者を話の出汁にして及第点を許さない・許すことが出来ないネット社会構造について書き散らしたいと思う。なお、筆者は別にTATSUROのファンではないしCD等も持っていない。また本件の松尾氏に対する言及については主題と外れるので取り上げない。

TATSUROのラジオでの発言について

まだ内容を知らないなら、radikoタイムフリー(一週間以内)で聞いてくるかニュースサイトの書き起こしを見て欲しい:

さて、その上で次の質問を投げかけたい。果たしてTATSUROは「ジャニー喜多川の性加害」を擁護しているのか。それともしていないのか。しばし、お考え願いたい。

答えが「している」の方はハズレ。そして「していない」の方もハズレ。正解は「本当なら問題だと考えるが、自分が把握していないのでコメントできない」。つまりノーコメントだ。

自分が考えるに、これおそらく次のような建付けで説明できると思う。

1. TATSURO本人はその噂は聞いたことがあったが、真実であるかを判断するほど情報を持っていない

2. ジャニーズ事務所も今に至るまで創業者による性加害を「あった」と認定していない( https://www.johnny-associates.co.jp/news/info-700/

3. よって会社代表するアーティストとしては「あった」ことを前提としたコメント出来ない。

これに対して、過去裁判で加害の事実が認められているではないか! 卑怯である! という反論が予想されるし、個人的にはTATSUROの発表には最高裁での判決を知った上でのコメントが足りていなかったと考える。ただ、今がトレンドジャニー喜多川の性加害問題について多くのメディアでも盛んに取り上げられているが、ならば現在、彼や事務所取引があった組織がどれだけ氏の所業について声明を出しているだろうか?

念の為だが、だからTATSUROの対応も許されるということではない。吉田豪氏が ヤフコメ で指摘していた通り、薄っすらと業界全体が共犯関係にあり、うかつに声を上げられないところが問題なのだろう。さらには現ジャニーズだけではなく、独立した元SMAP新しい地図)や元TOKIOなどにも延焼しかねないし、事務所を辞めたジュニアの人にすら風評被害が出てしまうかもしれない。松尾氏が口火を切って声を挙げたことは偉大ではあるが、個人ではなく会社組織となるとそう簡単には動けないのだ。当然、松尾氏もそれは想定した上で、声を上げようと呼びかけているのではあるが……

自分としては、だからジャニーズ事務所本体が早急に創業者による加害を認め、外部委員会や透明性のある組織改革看板の付替えなどで心機一転し、責任を持って業界全体を巻き込んで芸能界清浄化に取り組むのが筋であるとは考えている。)

次は、ならばTATSUROはその加害について言及する必要があったのか検討したい。

TATSUROとしての説明責任。ただのヒラ作曲家なのか音楽業界の重鎮なのか。

私見ではあるが、ジャニー喜多川の性加害について説明責任が発生するのは現段階ではジャニーズ事務所および加害に関与した者のみであり、それに関与せず単に所属タレント活動関係していた作曲家振付師などには発生しないと考える。

そこで、もう一度番組での発言に立ち戻りたい。もし時間が許すならば彼の発言をもう二回「イチ音楽家」および「長年に渡り音楽業界を引っ張ってきた重鎮」の言葉として読み直して欲しい。

いかがだっただろうか。思うに、前半と後半の論調の違いに違和感を覚えたのではないだろうか。そう、このコメントは、前半はスマイルカンパニー代表として会社代理、そして後半は一介の音楽家としてジャニー喜多川およびジャニーズへの想いの吐露という構成になっている。そう、TATSUROという唯の音楽家としての、だ。松尾氏の契約解除にジャニーズへの忖度が疑われているなか、なんでそんなことするんじゃいと頭を抱える行為だが、音楽家としての彼はジャニー喜多川の功の部分について語らざるを得ないのだろう。

ここで重要なのはあくまでのTATSUROはあくまでも音楽家として「私」を語っているつもりであるということだ。そして不幸なのは週刊誌などの好奇心の徒が興味を持っていたのがジャニー喜多川音楽を通じて縁があったことに対する反省・釈明であったことだ。なぜあんなにも大量の性被害を生み出したジャニー喜多川の肩を、今やシティポップで海外にも名が轟くTATSUROが持つのかと。

そう、求められていたのは、TATSUROという音楽界を生き抜いてきた重鎮が、責任感を持って性加害問題言及することであり、それによって歩みが鈍いジャニーズ問題に進展が見られることだった。筆者も正直その方向性声明を期待していたところがあるので肩透かしであったし、前述したように最高裁による裁判結果という事実は参照するべきであったと考える。

さらにここからラジオ聴き個人としての意見だが、自分にとって先日のサンソンはTATSUROの生き方をそのまま出力したようなものに感じた。週刊誌等の俗事な話題を厭い、一身上の理由のみ告げる。なので、全く持って現状の炎上状態対応するには未熟で不適切であると同時に、(氏の中で)一貫して筋は通っているな、と感じた。特にファンではない自分がそう感じる程なのだから、曲を聞き続け、ライブにも通っていた氏のファンのアンビバレンスは想像に難くない。

期待された正しい振る舞いが得られなかった場合に、高度情報社会ではその反応が画一化してしまうことについての懸念

ここからが本駄文の本題。

ここまでにグダグダと書いてきたように、長々6分も使ってラジオで述べたTATSUROの対応は、ジャニーズ事務所のゴタゴタに端を発する松尾氏のスマイルカンパニー契約解除事件のものとしては上手いものではなかった。そして連日のように彼のどこがマズイか諸々記事が生み出され、はてぶでを騒がせている。首肯するしかない理性的な論説もあれば、偏見に基づいた単なるアンチが皮を被っただけのゴミもある。しかし、一貫しているのは彼は失敗したという前提だ。つまり、何が大衆の心を逆なでし、何が更なる炎上を招くのか。これはネット社会では数多くの物事炎上してきた結果、その都度に識者がなぜ炎上したのか解説記事を書き広めてきたことの成果だ。

これによりネット民炎上リテラシが向上し、やれ謝罪文テキストではなく画像だ、検索クローラ拒否している、被害者に対する謝罪が条件付き謝罪だ、などなど「正しくない」炎上の型が言語化がされてきた。これ自体社会全体の知識の向上であり当然ではあるのだが、最近は「正しくない型」にハマっているとそれ自体が罪とされているような感覚がある。本来はそれらは当事者の間で決着を付けることで十分なのに、ネット民が「型」を定規のように振り回し、それがいかに正しくないかおもちゃにして遊ぶような。

そしてこれは謝罪文だけに限らず、どんな事柄に対してもSNSで尤もらしい解説批判が一斉に広まって、そしてフォロワーがそれを縮小再生産して再びばら撒く。これが正しい知識である場合問題ないし、歓迎することでもあるとは思うのだが、ただそれなりに長くネットをやっていて感じるのは、結局はそれは知識として深く根付くことはなく、単なる善悪物差しとしての判断基準になっているのではないか専門家専門家足るのは状況に応じて適切な対応が取れるからなんだが、単なるSNSユーザである我々にそれ程のものがあるのか。

そう考えると、松尾氏とTATSUROのこの問題は、突き詰めるまでもなく当事者間の契約問題の話であり、外野がそれを酒の肴にして相応しい相応しくないと論じるのはなんだかなあと感じている。

個人的には週刊誌ゴシップ記事情報源が曖昧ものが多くあまり好まないのだが、最近はてぶでは多く見かける気がしている。文春による調査報道週刊誌記事エントリーすることが多くなったからだろうか?)

2023-05-29

乳輪35

フォローフォロワーが0のTwitterアカウントで、頭に浮かんだ言葉ツイートし続けている。そうしないと気が狂うし、これをやってると気が狂うともいえる。知らん。

閲覧数は常に1か2だ。Twitter社の検閲用のボットとか、公式クローラとかが1を踏んでるのかな。で、偶然日本語圏の誰かの検索に引っかかって2。日本にそれまで存在してない言葉の組み合わせをTweetしてるからね。

で「乳輪」という単語が含まれ場合だけ閲覧数が35増える。わざわさわ新料金体系のAPIで乳輪サーチしてるやつが35法人いるってこと?

インターネットなんか消え失せちまえばいいんだ。サメになって海底ケーブル踊り食いだぜ。

2023-01-01

2023は社会影響を防御してコンテンツ消費すんぞ

自己防衛投資、あと海外移住日本脱出だよね。

いやただの俺の個人的目標なんだけどね。

なんつーか、何が楽しいとか嫌いとか、そういうのを社会の色んな情報に左右されすぎちゃったなってね。

反省点ではあるんだが「トップガン流行ってます!」って情報があって、それで映画を見たとして、流行っていなかったとしても楽しいと思えたんかなって。

それで新年最初目標は、ネット上の情報に何らかの「数」が付与されている場合は、それを隠すようなfirefoxプラグイン自分用に作ろうかなと。

フォロワー数、イイネ数、反応数、ビュー数、レビュー数、などなど、ノイズしかならない「数」情報

極めつけは経済情報を俺が収集し始めたことに関係してるんだよね。

まず人を騙そうとしている嘘が多いし、嘘に限って何らかの「数」が多い。

仮に嘘ではなくとも、俺の人生目標あいつらの人生目標全然うから必要とする経済情報が違う。

からね、とりあえず自分目的自体はっきりさせて、それに対して役立つ情報を「数」とか関係なく収集しようと思うんだよね、話はそれからってもんよ。

あと、Googleも極力使わない。DuckDuckGoへ変更する。Google Drive、GmailなどはProtonへ移行。

最悪、DuckDuckGo自体が信用できないってなら、自分専用に情報収集するクローラローカルサーバーで起動させる。それぐらいしなきゃやっぱダメよ。まあもっと簡単にやるならRSSリーダーかな。

本当のことを言うと、支配者層がコンテンツ市場支配しているのが気に入らん。あいつらの性癖で高評価されたコンテンツを俺が好むとでも?笑止千万である

2022-10-20

AIイラストが並んでようが並んでまいがどうでもいいが

改修でクローラがぶっ壊れそうなことが心配だよ

方面迷惑かけやがってエンジニアゴミクズ

2022-08-01

いかがでしたか?」問題に「欲しい情報が出ない」問題… Google検索第一人者が語る、検索で不満が募る“意外な理由”とは | 文春オンライン

https://bunshun.jp/articles/-/56122

辻氏の記事に対するコメントにこんなものがあった。

blanqui 2022/08/01 12:51

Google検索第一人者って何ぞって思って読んだら、クローラ作成者とか自然言語解析やアルゴリズム研究者とかではなく、SEO業者だった。

https://b.hatena.ne.jp/entry/4723202290562822882/comment/blanqui

WEB屋というか技術屋が多かったはずのはてなにおいて、「SEO業者」の一言唾棄するコメントスターが集まってるのを見て悲しくなったわ。まぁ「Google検索第一人者」という言葉が適切かどうかはともかく。

なんではてなって意地でも何かにイチャモンを付けたがる偏屈ジジイ巣窟なっちゃったんだろうな。何も知らんくせに偉そうなことをいう奴だらけ。ヤフコメレベルネットスラムになってしまって俺は悲しいよ。

2022-03-06

anond:20220306023518

あーゴメン。例が悪かった。

じゃあキミ自身運営するサイト(できれば独自ドメイン)でテストしてみてくれ。

以前なら公開した瞬間にクローラがやってきて全てのページがインデックスされていた。

今ではクローラもなかなかやってこないし、やってきても全てがインデックスされるとは限らない。

かなり力を入れて書いたコンテンツでもなぜかインデックスすらされないこともあって、基準が謎すぎる。

ログイン ユーザー登録
ようこそ ゲスト さん