「github」を含む日記

はてなキーワード: githubとは

2024-06-11

■プログラマーになるために学位は不要

まず「ソフトウェアエンジニア」という肩書名を使うやつは、かっこつけたがってるだけで、実質プログラマーと大差はない

で、プログラマーとしての知識はインターネットがあれば99.9%学べる

arxivなどの論文
github, kaggleなどのコードリソース
MIT OCWなどの無料コンテンツ
leetcodeなどのアルゴリズム学習
等々

学位は、単に4年学んだふりをしたという紙切れでしかない

一度企業に入り込んで経験を身につければ、あとは実力の世界だ

「僕はCS 学位をもってまーす」ということしかイキれない無能の出番はないだろう

Permalink | 記事への反応(7) | 11:18

2024-06-08

■anond:20240608003649

でも、Githubを運営しているのがMicrosoft であるという問題がありますよね。

Permalink | 記事への反応(1) | 00:43

■プライバシーを守る生活

毎朝6時に起きる私は、まずベッドサイドに置いたLibrem 5スマートフォンに手を伸ばします。ハードウェアキルスイッチでカメラとマイクをオフにしているため、寝ている間も安心して眠ることができます。

目覚めの後、簡単なストレッチをしながら、Signalで昨晩のメッセージを確認します。フリーランスのソフトウェアエンジニアとして働く私にとって、世界中のクライアントとの連絡は欠かせません。

朝食を済ませると、私はLibrem 14のノートパソコンを起動します。このパソコンには、プライバシー保護に特化したPureOSがインストールされています。

私はまず、ProtonVPNを起動してインターネットに接続し、セキュアな環境を確保します。Tor ブラウザーを開き、プライバシー関連の最新ニュースをチェックするのが日課です。

次に、メールを確認し、必要なタスクを整理します。仕事の依頼やクライアントからの質問に対応する際、私はエンドツーエンド暗号化が施されたメールサービスを使用します。

午前中は、オープンソースプロジェクトへの貢献に時間を割きます。私はGitHubでプロジェクトをフォークし、コードの改善やバグ修正を行います。

仕事中、私はプライバシーを確保するために、全ての通信を暗号化し、GoogleやMicrosoftのサービスを一切使用しません。

必要なツールやソフトウェアは、全てオープンソースであり、信頼性の高いものを厳選しています。

昼食の時間になると、私は外出して近くの公園でサイクリングを楽しみます。自転車に乗ることで、リフレッシュし、健康を維持することができます。

公園では、持ち運びが簡単なRaspberry Piを使って、モバイルホットスポットを作成し、安全なインターネット接続を維持します。これにより、外出先でも安心してインターネットを利用できます。

午後は、クライアントのプロジェクトに集中します。私はクライアントの要求に応じてソフトウェアを開発し、そのコードを安全な方法で納品します。

私はまた、プライバシーに関する技術記事を執筆し、自身のブログに投稿します。これにより、自身の知識を共有し、他の人々にもプライバシーの重要性を理解してもらうことを目指しています。

夕方になると、私は写真撮影を楽しみます。カメラで風景や街の様子を撮影し、それをプライベートなクラウドストレージに保存します。

このクラウドストレージは、自分で管理しているため、第三者がデータにアクセスすることはありません。撮影が終わると、家に帰り、自分の写真を編集してブログに投稿します。

夜になると、一日の終わりにデバイスのセキュリティチェックを行います。最新のセキュリティパッチが適用されているか確認し、必要に応じてシステムを更新します。

また、バックアップを作成し、重要なデータを複数の安全な場所に保存します。最後に、Tails OSを使ってセキュアにブラウジングし、リラックスして一日の疲れを癒します。

Permalink | 記事への反応(2) | 00:36

2024-06-05

■I.GPT-4からAGIへ：OOMを数える (6)

データの壁

これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。

フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプである Common Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である（例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる）。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。

データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック（16回の繰り返し）の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの（効果的な）計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ：ダリオ・アモデイ（Anthropic社CEO）は最近、ポッドキャストでこう語った：「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。

インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法（限られたデータからより多くのことを学べるようにするアルゴリズムの改良）を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい：

現代のLLMが訓練中に行うことは、基本的に、教科書を非常に素早く読み飛ばすことであり、単語はただ通り過ぎていくだけで、それに頭を使うことはあまりない。
そうではなく、あなたや私が数学の教科書を読むときは、2、3ページゆっくり読み、その内容について頭の中で独白し、何人かの勉強仲間と話し合う。
あなたや私も、もしLLMのように、密度の濃い数学の教科書をさらっと読むだけなら、そこから多くを学ぶことはできないだろう。
しかし、限られたデータからモデルがより多くのことを学べるようにするために、人間がどのように密度の高い数学の教科書を消化するかを取り入れる方法があるのかもしれない。単純化すれば、このようなこと、つまり、教材について内部で独白すること、勉強仲間と議論すること、理解できるまで問題に挑戦して失敗することが、多くの合成データ／セルフプレイ／RLアプローチがやろうとしていることなのだ。

モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力（そして多くの失敗プロジェクト）が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去 10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。

さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ（例えば、難しい科学的問題に取り組む人々の推論チェーン）ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。

AlphaGo（囲碁で世界チャンピオンを破った最初のAI システム）を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。

ステップ1では、AlphaGoは熟練した人間の囲碁の対局を模倣して学習させた。これで基礎ができた。
ステップ2では、アルファ碁は自分自身と何百万もの対局を行った。イ・セドルとの対局での有名な37手目を思い出してほしい。極めて珍しい、しかし人間には決して打てない見事な手だ。

LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である（さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう）。

以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう）。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。

余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた）。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。）

続き I.GPT-4からAGIへ：OOMを数える(7) https://anond.hatelabo.jp/20240605210017

Permalink | 記事への反応(1) | 20:57

2024-05-30

■

列数がおおくて、しかもいまとなっては不要な情報もいっぱいあるし、

なんとかしたいけど、githubリポに直接CSVで保存してあるので、

なんとなく列数を減らす系の作業のやる気がおこらない。数年にわたって放置。

https://ics.media/entry/240523/

こんな感じで表編集（世間ではエクセル仕事とよぶ？）

Permalink | 記事への反応(0) | 09:53

2024-05-27

■

githubに無料IPTVが公開されてるけどこれ違法視聴になるのかな🤔

Permalink | 記事への反応(0) | 05:46

2024-05-20

■OSSってボランティア 搾取 指数かなり高いよな

OSSが自分の何かしらの評価に役立つことはないのに

OSSに時間搾取されて、明らかに自分よりできの悪いやつの仕事を無償で手伝ってやんないといけない

Githubを闇の組織と呼んだASKAは結構正しいと思う

Permalink | 記事への反応(1) | 21:34

2024-05-18

■[廃人日記] 2024-05-18

githubでなにか作ったものをアップロードするのは、自分向きではないことに気がついた。

私が仕事で作っているようなweb アプリケーションというのは、誰でも使える一般性の高いものではなく、もっと特定のビジネスに依存した特殊なものである。

だから一般的な誰でも使えるようなものを作るというのにはあまり慣れていないのだ。

なにか作る場合はkaggleのほうが遊び場として向いていると思っている。

kaggleで「コンペ」に参加するつもりはないし、あれはBERTが出現したぐらいからは、少なくともNLP(自然言語処理)界隈は不毛な場となってしまった。

指標があれば不毛なハックがある。それが現実というものである。

それに業務で実用レベルで使えるモデルというのは、もっと運用のしやすいシンプルなモデルである。

モンスターアンサンブルで精度がSOTAでーすピロローン！なんてことには興味がないが、コンペはそれを目指している。

ではなぜkaggleが良いかと言うと、データセットが転がっていて、notebookも簡単に作成できるからである。

「このデータをこうやって使うとこういうツールが作れる」「このデータをこうやって分析するとこういう知見が得られる」というのは、「web開発用のMVC フレームワークを作ります」よりも具体性がある。

そして特定のデータに対するモデリングをするために論文を調べるようなことになった場合は、勉強にもなる。

私は昔、自然言語処理のブログを書いていたが、実験したことのコードを載せるタイプの記事が多かった。

ところが自称データサイエンティストや自称 NLP エンジニアがツイッター上で「ゴミのようなブログを書くな」と言っていて、自分が言われている気がして怖くなったのでブログを閉鎖した。

そういう「政治おじさん」との接触を最大限減らすには、ブログというフォーマットではダメだと思うわけである。

私のマグカップには"Talk is cheap, show me the code."と書かれている。

これはリーナストーバルズの名言だが、政治おじさんが近寄らない場所というのは、具体的なコードが存在する場所であると言えよう。

Permalink | 記事への反応(0) | 17:15

2024-05-15

■

I want to display mathematical formulas with SSG, so I'm having trouble using it in conjunction with the KaTeX plugin.

I want to display mathematical formulas in SSG, so I have installed the KaTeX plugin.

In the case of SSG (honkit) that I use, I want to convert the part to a mathematical formula into

Enclose it in $ (dollar mark) and write the contents in so-called TeX.

In fact, the github site also supports math rendering.

I think it's pretty familiar.

I wanted to mention Excel's built-in functions. What are Excel functions?

I use the dollar mark when I want to keep the cell fixed even if it gets copied and pasted.

I want the dollars to remain dollars inside the code block.

Problems/Errors occurring

For example on the markdown source side

```markdown

=\$A\$2

````

I thought I could escape it by adding a backslash, so that's what I did.

In the case of the SSG that I use, when converted to html,

````

\{% math_inline %}A\{% endmath_inline %}2

````

It will become. ＿|￣|○

As for the hosting method, I also store the html files in a GIT repository and host them on the `vercel.app` site. Regarding markdown → html, I do it in the local environment instead of using GitHub Actions.

Things I tried myself

I confirmed that if I use full-width instead of half-width for the dollar, it would not be recognized, so I confirmed that it would work.

But this isn't a fundamental solution, is it?

Also, open the html file and use the batch replacement function to replace `{% math_inline %}` and `{% endmath_inline %}` with dollars. It seems that you need some wisdom to selectively replace only the fence code blocks at once.

Do I have no choice but to ask the plugin author?

https://github.com/zimmem/honkit-plugin-katex

Markdown's fence code block is a guy who repeats backticks three times.

In some cases, the only option is to ask the author to ignore the dollar sign conversion.

Don't you have any hands?

The author of the plugin seems to have stopped development a long time ago.

It seems like they won't be able to respond.

Also, in the case of inline math, it says to surround it with two dollars each, and in the case of block math, it says to surround it with two dollars + a new line, which is different from the normal syntax. I'm curious.

However, it will work even if you write it in the md source using normal syntax.

Permalink | 記事への反応(0) | 18:57

2024-05-12

■[廃人日記] 2024-05-12

グリゴリー・ペレルマンは昔から政治が嫌いだったらしい。

友人と会話して政治的なことが出ると「◯◯君、それは政治だよ」とピシャリと指摘したと聞く。

ミレニアム懸賞問題の論文を提出し、それが評価される過程での政治が発生したときは「俺は政治家じゃねぇ！」とキレたようだ。

賞金も辞退し、数学会から手を引いてからは、オペラの鑑賞を趣味として質素な生活をしているらしい。

誰も解けない問題を解き、arxivに成果を出すことで出版社に存在する政治を避け、数学的証明の正しさだけで勝利を勝ち取った男がペレルマンその人である。

このストーリーを聞いて私は、この人こそ尊敬に値する数学者だと思った。

研究助成金をもらうための政治的活動に熱を入れる数々の自称研究者とは格が違う。

私もまた、政治厨が嫌いな市民の一人である。

政治とは関係のないことを趣味としてやることを望んでいる。

数年前はgithubでOSSを公開することがそういう趣味だと思い込んでいたが、スター数で評価されるという政治が存在することに気が付き、消極的になった。

社会でなにか評価されようとすることが政治なのだろう。ポアンカレ予想ですら中華が業績を奪おうと政治工作したのだから。

私はプログラミングを趣味と仕事の両方でやっているが、コンピュータはインターネットを通じて社会と繋がりすぎている。

だから世間と自分を比較して、自分はダメだと落ち込んで幸福度を下げているのだ。馬鹿らしい。

社会とは適度に距離をおいたところにある趣味が、本当に私がやりたかったことかもしれない。

Permalink | 記事への反応(1) | 14:04

2024-05-11

■Cloudflare Workersでサーバーサイドデビュー

ここ１週間Cloudflare Workersを触ってるぞ。

ドメイン維持費以外お金がかからないのが嬉しいぞ。

無料枠が潤沢だと精神的にめっちゃ楽で良いね。

とは言っても無料分でもめちゃ早くて快適だぞ。Cloudflare上の管理画面も軽いし好きになっちゃったぞ。

でも無料分だと1リクエスト 10 ミリ秒のCPU 時間しか使えないのがちょっとね…。

Cron Triggerで定期実行できるのも10ms制限だから悲しい。

まぁDB からデータ取ってくるとかの時間はカウントされないから7ms以下で済んでるけどね。

バッチ処理的なあれが必要になったときはGitHub ActionsでCloudflareのREST API経由でやるのがお金がかからなくて良さそう。

そうそう、GitHub Actionsも良いよね。

あれってパブリックリポジトリだと無料でなんぼでも使えちゃうんだよね。（もちろんビットコイン掘削とかは駄目だろうけど。）スゴいね。

ChatGPTも無料だし、世の中のどえらいサービスがたくさん無料で良いね。

このまま何もかもが無料になれば良いのに。

Permalink | 記事への反応(0) | 01:04

2024-04-29

■

賢そうなことを言おうとして、ひたすら論文を翻訳してオリジナルなことを言わないXアカウントがいるんですよ

なーにやっちまったな

漢は黙ってgithub漢は黙ってgithub

プログラムは書けないよ〜

Permalink | 記事への反応(0) | 17:34

2024-04-28

■ソフトウェア 技術の99.9%はインターネット から学べるのでググる力を身に着けましょう

こんにちは、皆さん。今日は少し物議を醸すかもしれないトピックについて語りたいと思います。

それは、「ソフトウェア技術の99.9%はインターネットから学べるのでググる力を身に着けましょう」という考え方です。

現代のソフトウェア開発者にとって、インターネットは最も重要な学習リソースの一つです。

オンライン上には無数のチュートリアル、ドキュメンテーション、フォーラム、ブログ記事、論文があり、それらは私たちが新しい技術を学び、問題を解決するのに役立ちます。

しかもこれらはソフトウェエア技術のほぼ全分野をほぼ網羅しており、見つからない情報はありません。MIT OCW, arxiv, github, kaggleなどなんでもあります。

「ググる力」とは、情報を効率的に検索し、適切な情報を見つけ出す能力のことを指します。

これは、適切なキーワードを使用したり、信頼性のある情報源を識別したり、関連性のある情報を抽出したりする能力を含みます。

ソフトウェア開発は常に進化しています。新しい技術やフレームワークが日々生まれ、既存のものも更新され続けています。

このような環境では、すべてを覚えることは不可能ですが、必要な情報を素早く見つけ出す能力があれば、それが可能になります。

私の主張は、すべてのソフトウェア開発者が自分自身で学ぶこと、そしてそのための最良のツールがインターネットであるということです。

そして、そのためには「ググる力」を身につけることが不可欠です。

Permalink | 記事への反応(0) | 10:29

2024-04-27

■POCだのと言って機械学習の論文を読んで実装する業務を3年ぐらい任されたこ とあるけど

論文は一次ソース！信用できる！ってのは集団妄想の類だぞ

まず論文の再現性問題と言って、おなじことをやっても全く再現しないことが多い

それ以前の問題として、論文の内容を正確に同じことをやろうとするにはgithub等でコードを公開しているなどしないとまず不可能

「僕たちの手法はこうでーす！ACCの値はこうでーす！SOTAでましたー！」だけじゃ論文になんの価値もないんだよね

悪いことは言わないから、論文を完全に再現するコードをgithubに載せてから論文を発表してくれ

まあこの調子だから、科学の全分野で再現性が怪しいのは言うまでもない

Permalink | 記事への反応(0) | 11:02

2024-04-23

■

一般人が忌避するツールにありがちなこと

日本語設定がない
Githubを開き、Releaseからダウンロードしなければならない
インストーラーが無い
GUIが無い／簡素すぎる／複雑すぎる
日本語化が実行形式のパッチではなく別途ファイルの追加・上書き方式
画面上に文字が多い
専門用語が多い
操作手順がややこしい

Permalink | 記事への反応(0) | 23:34

■頂き女子 りり ちゃんのマニュアルをオープンソースにしてほしい

GitHubにpushしてほしい

Permalink | 記事への反応(1) | 12:43

2024-04-22

■ヨーロッパの主要都市におけるソフトウェア エンジニア向けベスト カンパニ

# ヨーロッパの主要都市におけるソフトウェアエンジニア向けベストカンパニー

ヨーロッパの各都市でソフトウェアエンジニアにとって最適な企業を探しているなら、以下のリストが参考になるでしょう。

## チューリッヒ, スイス

Google, Facebook, Snap, NVIDIA, Microsoft, Apple, Oracle, Snyk, GetYourGuide, UBS, Swisscom, DFINITY, Cisco.

## ロンドン, イングランド

Google, Facebook, Snap, Jane Street, Stripe, Coinbase, Apple, Amazon, Hudson River Trading, Citadel, ByteDance, Two Sigma, Palantir, Bloomberg, Revolut, GSA Capital, Marshall Wace, Quadrature, Five Rings, G-Research, Starling, Personio, DeepMind, DRW, Millenium, BlackRock, MAN Group, Jump Trading, DE Shaw, AQR, Maven Securities, Point72, IMC, Optiver, Susquehanna (SIG), XTX, Old Mission, Squarepoint, Qube Research & Technologies (QRT), Yelp.

## アムステルダム, オランダ

Uber, Databricks, Bitvavo, Booking, Miro, Flexport, Atlassian, Spotify, Optiver, IMC, Amazon, Adyen, Google, Stripe, Flow Traders, MessageBird, Reddit, Box, JetBrains, Personio, Elastic, GitHub, Catawiki, Tower Research, Radix Trading, Headlands Technologies, Tomtom.

## パリ, フランス

Google, Meta, Datadog, Criteo, Microsoft, Stripe, Airbnb, Amazon, Atlassian, Hubspot, Workday, Ankorstore, Red Hat, Algolia, Alan, 360Learning, ContentSquare.

## ベルリン, ドイツ

AWS, Amazon, Microsoft, Wayfair, Google, Meta, Apple, HubSpot, Stripe, NVIDIA, Snowflake, Personio, Databricks, JetBrains.

## ダブリン, アイルランド

AWS, Microsoft, Google, Mastercard, Workday, Salesforce, Meta, Stripe, VMware, LinkedIn, Etsy, Personio, ByteDance, Coinbase, Hubspot.

## ミュンヘン, ドイツ

Google, Apple, Microsoft, Nvidia, Adobe, Workday, Celonis, BMW, Salesforce, SIXT, SAP, Huawei, Personio, Intel, JetBrains, IBM.