はてなキーワード: githubとは
毎朝6時に起きる私は、まずベッドサイドに置いたLibrem 5スマートフォンに手を伸ばします。ハードウェアキルスイッチでカメラとマイクをオフにしているため、寝ている間も安心して眠ることができます。
目覚めの後、簡単なストレッチをしながら、Signalで昨晩のメッセージを確認します。フリーランスのソフトウェアエンジニアとして働く私にとって、世界中のクライアントとの連絡は欠かせません。
朝食を済ませると、私はLibrem 14のノートパソコンを起動します。このパソコンには、プライバシー保護に特化したPureOSがインストールされています。
私はまず、ProtonVPNを起動してインターネットに接続し、セキュアな環境を確保します。Torブラウザーを開き、プライバシー関連の最新ニュースをチェックするのが日課です。
次に、メールを確認し、必要なタスクを整理します。仕事の依頼やクライアントからの質問に対応する際、私はエンドツーエンド暗号化が施されたメールサービスを使用します。
午前中は、オープンソースプロジェクトへの貢献に時間を割きます。私はGitHubでプロジェクトをフォークし、コードの改善やバグ修正を行います。
仕事中、私はプライバシーを確保するために、全ての通信を暗号化し、GoogleやMicrosoftのサービスを一切使用しません。
必要なツールやソフトウェアは、全てオープンソースであり、信頼性の高いものを厳選しています。
昼食の時間になると、私は外出して近くの公園でサイクリングを楽しみます。自転車に乗ることで、リフレッシュし、健康を維持することができます。
公園では、持ち運びが簡単なRaspberry Piを使って、モバイルホットスポットを作成し、安全なインターネット接続を維持します。これにより、外出先でも安心してインターネットを利用できます。
午後は、クライアントのプロジェクトに集中します。私はクライアントの要求に応じてソフトウェアを開発し、そのコードを安全な方法で納品します。
私はまた、プライバシーに関する技術記事を執筆し、自身のブログに投稿します。これにより、自身の知識を共有し、他の人々にもプライバシーの重要性を理解してもらうことを目指しています。
夕方になると、私は写真撮影を楽しみます。カメラで風景や街の様子を撮影し、それをプライベートなクラウドストレージに保存します。
このクラウドストレージは、自分で管理しているため、第三者がデータにアクセスすることはありません。撮影が終わると、家に帰り、自分の写真を編集してブログに投稿します。
夜になると、一日の終わりにデバイスのセキュリティチェックを行います。最新のセキュリティパッチが適用されているか確認し、必要に応じてシステムを更新します。
また、バックアップを作成し、重要なデータを複数の安全な場所に保存します。最後に、Tails OSを使ってセキュアにブラウジングし、リラックスして一日の疲れを癒します。
これらすべての重要な変動要因になりうるものがあります。つまり、より多くのスクレイピング・データでより大きな言語モデルをプリ・トレーニングするという素朴なアプローチが、まもなく深刻なボトルネックにぶつかり始める可能性があるということだ。
フロンティア・モデルはすでにインターネットの多くで訓練されている。例えば、Llama 3は15T以上のトークンで学習された。LLMのトレーニングに使用されたインターネットの多くのダンプであるCommon Crawlは、生で100Tトークンを超えるが、その多くはスパムや重複である(例えば、比較的単純な重複排除は30Tトークンにつながり、Llama 3はすでに基本的にすべてのデータを使用していることになる)。さらに、コードのようなより特殊な領域では、トークンの数はまだまだ少ない。例えば、公開されているgithubのリポジトリは、数兆トークンと推定されている。
データを繰り返すことである程度遠くまで行くことができるが、これに関する学術的な研究は、16エポック(16回の繰り返し)の後、リターンは非常に速く減少し、ゼロになることを発見し、繰り返しはそこまでしか得られないことを示唆している。ある時点で、より多くの(効果的な)計算を行ったとしても、データ制約のためにモデルをより良いものにすることは非常に難しくなる。私たちは、言語モデリング-プレトレーニング-パラダイムの波に乗って、スケーリングカーブに乗ってきた。大規模な投資にもかかわらず、私たちは停滞してしまうだろう。すべての研究室が、新しいアルゴリズムの改善や、これを回避するためのアプローチに大規模な研究の賭けに出ていると噂されている。研究者たちは、合成データからセルフプレー、RLアプローチまで、多くの戦略を試していると言われている。業界関係者は非常に強気のようだ:ダリオ・アモデイ(Anthropic社CEO)は最近、ポッドキャストでこう語った:「非常に素朴に考えれば、我々はデータ不足からそれほど遠くない[...]私の推測では、これが障害になることはない[...]。もちろん、これに関するいかなる研究結果も独占的なものであり、最近は公表されていない。
インサイダーが強気であることに加え、サンプル効率をはるかに向上させたモデルをトレーニングする方法(限られたデータからより多くのことを学べるようにするアルゴリズムの改良)を見つけることが可能であるはずだという強い直感的な理由があると思う。あなたや私が、本当に密度の濃い数学の教科書からどのように学ぶかを考えてみてほしい:
モデルをトレーニングする昔の技術は単純で素朴なものだったが、それでうまくいっていた。今、それがより大きな制約となる可能性があるため、すべての研究室が数十億ドルと最も賢い頭脳を投入して、それを解読することを期待すべきだろう。ディープラーニングの一般的なパターンは、細部を正しく理解するためには多くの努力(そして多くの失敗プロジェクト)が必要だが、最終的には明白でシンプルなものが機能するというものだ。過去10年間、ディープラーニングがあらゆる壁をぶち破ってきたことを考えると、ここでも同じようなことが起こるだろう。
さらに、合成データのようなアルゴリズムの賭けの1つを解くことで、モデルを劇的に改善できる可能性もある。直感的なポンプを紹介しよう。Llama 3のような現在のフロンティアモデルは、インターネット上でトレーニングされている。多くのLLMは、本当に質の高いデータ(例えば、難しい科学的問題に取り組む人々の推論チェーン)ではなく、このようながらくたにトレーニング計算の大半を費やしている。もしGPT-4レベルの計算を、完全に極めて質の高いデータに費やすことができたらと想像してみてほしい。
AlphaGo(囲碁で世界チャンピオンを破った最初のAIシステム)を振り返ることは、それが可能だと考えられる何十年も前に、ここでも役に立つ。
LLMのステップ2に相当するものを開発することは、データの壁を乗り越えるための重要な研究課題である(さらに言えば、最終的には人間レベルの知能を超える鍵となるだろう)。
以上のことから、データの制約は、今後数年間のAIの進歩を予測する際に、どちらに転んでも大きな誤差をもたらすと考えられる。LLMはまだインターネットと同じくらい大きな存在かもしれないが、本当にクレイジーなAGIには到達できないだろう)。しかし、私は、研究所がそれを解読し、そうすることでスケーリングカーブが維持されるだけでなく、モデルの能力が飛躍的に向上する可能性があると推測するのは妥当だと思う。
余談だが、このことは、今後数年間は現在よりも研究室間のばらつきが大きくなることを意味する。最近まで、最先端の技術は公表されていたため、基本的に誰もが同じことをやっていた。(レシピが公開されていたため、新参者やオープンソースのプロジェクトはフロンティアと容易に競合できた)。現在では、主要なアルゴリズムのアイデアはますます専有されつつある。今はフロンティアにいるように見えるラボでも、他のラボがブレークスルーを起こして先を急ぐ間に、データの壁にはまってしまうかもしれない。そして、オープンソースは競争するのがより難しくなるだろう。それは確かに物事を面白くするだろう。(そして、ある研究室がそれを解明すれば、そのブレークスルーはAGIへの鍵となり、超知能への鍵となる。)
続き I.GPT-4からAGIへ:OOMを数える(7) https://anond.hatelabo.jp/20240605210017
githubでなにか作ったものをアップロードするのは、自分向きではないことに気がついた。
私が仕事で作っているようなwebアプリケーションというのは、誰でも使える一般性の高いものではなく、もっと特定のビジネスに依存した特殊なものである。
だから一般的な誰でも使えるようなものを作るというのにはあまり慣れていないのだ。
なにか作る場合はkaggleのほうが遊び場として向いていると思っている。
kaggleで「コンペ」に参加するつもりはないし、あれはBERTが出現したぐらいからは、少なくともNLP(自然言語処理)界隈は不毛な場となってしまった。
指標があれば不毛なハックがある。それが現実というものである。
それに業務で実用レベルで使えるモデルというのは、もっと運用のしやすいシンプルなモデルである。
モンスターアンサンブルで精度がSOTAでーすピロローン!なんてことには興味がないが、コンペはそれを目指している。
ではなぜkaggleが良いかと言うと、データセットが転がっていて、notebookも簡単に作成できるからである。
「このデータをこうやって使うとこういうツールが作れる」「このデータをこうやって分析するとこういう知見が得られる」というのは、「web開発用のMVCフレームワークを作ります」よりも具体性がある。
そして特定のデータに対するモデリングをするために論文を調べるようなことになった場合は、勉強にもなる。
私は昔、自然言語処理のブログを書いていたが、実験したことのコードを載せるタイプの記事が多かった。
ところが自称データサイエンティストや自称NLPエンジニアがツイッター上で「ゴミのようなブログを書くな」と言っていて、自分が言われている気がして怖くなったのでブログを閉鎖した。
そういう「政治おじさん」との接触を最大限減らすには、ブログというフォーマットではダメだと思うわけである。
私のマグカップには"Talk is cheap, show me the code."と書かれている。
これはリーナストーバルズの名言だが、政治おじさんが近寄らない場所というのは、具体的なコードが存在する場所であると言えよう。
I want to display mathematical formulas in SSG, so I have installed the KaTeX plugin.
In the case of SSG (honkit) that I use, I want to convert the part to a mathematical formula into
Enclose it in $ (dollar mark) and write the contents in so-called TeX.
In fact, the github site also supports math rendering.
I think it's pretty familiar.
I wanted to mention Excel's built-in functions. What are Excel functions?
I use the dollar mark when I want to keep the cell fixed even if it gets copied and pasted.
I want the dollars to remain dollars inside the code block.
For example on the markdown source side
```markdown
=\$A\$2
````
I thought I could escape it by adding a backslash, so that's what I did.
In the case of the SSG that I use, when converted to html,
````
\{% math_inline %}A\{% endmath_inline %}2
````
As for the hosting method, I also store the html files in a GIT repository and host them on the `vercel.app` site. Regarding markdown → html, I do it in the local environment instead of using GitHub Actions.
I confirmed that if I use full-width instead of half-width for the dollar, it would not be recognized, so I confirmed that it would work.
But this isn't a fundamental solution, is it?
Also, open the html file and use the batch replacement function to replace `{% math_inline %}` and `{% endmath_inline %}` with dollars. It seems that you need some wisdom to selectively replace only the fence code blocks at once.
https://github.com/zimmem/honkit-plugin-katex
Markdown's fence code block is a guy who repeats backticks three times.
In some cases, the only option is to ask the author to ignore the dollar sign conversion.
The author of the plugin seems to have stopped development a long time ago.
It seems like they won't be able to respond.
Also, in the case of inline math, it says to surround it with two dollars each, and in the case of block math, it says to surround it with two dollars + a new line, which is different from the normal syntax. I'm curious.
However, it will work even if you write it in the md source using normal syntax.
グリゴリー・ペレルマンは昔から政治が嫌いだったらしい。
友人と会話して政治的なことが出ると「◯◯君、それは政治だよ」とピシャリと指摘したと聞く。
ミレニアム懸賞問題の論文を提出し、それが評価される過程での政治が発生したときは「俺は政治家じゃねぇ!」とキレたようだ。
賞金も辞退し、数学会から手を引いてからは、オペラの鑑賞を趣味として質素な生活をしているらしい。
誰も解けない問題を解き、arxivに成果を出すことで出版社に存在する政治を避け、数学的証明の正しさだけで勝利を勝ち取った男がペレルマンその人である。
このストーリーを聞いて私は、この人こそ尊敬に値する数学者だと思った。
研究助成金をもらうための政治的活動に熱を入れる数々の自称研究者とは格が違う。
数年前はgithubでOSSを公開することがそういう趣味だと思い込んでいたが、スター数で評価されるという政治が存在することに気が付き、消極的になった。
社会でなにか評価されようとすることが政治なのだろう。ポアンカレ予想ですら中華が業績を奪おうと政治工作したのだから。
私はプログラミングを趣味と仕事の両方でやっているが、コンピュータはインターネットを通じて社会と繋がりすぎている。
ここ1週間Cloudflare Workersを触ってるぞ。
とは言っても無料分でもめちゃ早くて快適だぞ。Cloudflare上の管理画面も軽いし好きになっちゃったぞ。
でも無料分だと1リクエスト10ミリ秒のCPU時間しか使えないのがちょっとね…。
Cron Triggerで定期実行できるのも10ms制限だから悲しい。
まぁDBからデータ取ってくるとかの時間はカウントされないから7ms以下で済んでるけどね。
バッチ処理的なあれが必要になったときはGitHub ActionsでCloudflareのREST API経由でやるのがお金がかからなくて良さそう。
あれってパブリックリポジトリだと無料でなんぼでも使えちゃうんだよね。(もちろんビットコイン掘削とかは駄目だろうけど。)スゴいね。
ChatGPTも無料だし、世の中のどえらいサービスがたくさん無料で良いね。
このまま何もかもが無料になれば良いのに。
こんにちは、皆さん。今日は少し物議を醸すかもしれないトピックについて語りたいと思います。
それは、「ソフトウェア技術の99.9%はインターネットから学べるのでググる力を身に着けましょう」という考え方です。
現代のソフトウェア開発者にとって、インターネットは最も重要な学習リソースの一つです。
オンライン上には無数のチュートリアル、ドキュメンテーション、フォーラム、ブログ記事、論文があり、それらは私たちが新しい技術を学び、問題を解決するのに役立ちます。
しかもこれらはソフトウェエア技術のほぼ全分野をほぼ網羅しており、見つからない情報はありません。MIT OCW, arxiv, github, kaggleなどなんでもあります。
「ググる力」とは、情報を効率的に検索し、適切な情報を見つけ出す能力のことを指します。
これは、適切なキーワードを使用したり、信頼性のある情報源を識別したり、関連性のある情報を抽出したりする能力を含みます。
ソフトウェア開発は常に進化しています。新しい技術やフレームワークが日々生まれ、既存のものも更新され続けています。
このような環境では、すべてを覚えることは不可能ですが、必要な情報を素早く見つけ出す能力があれば、それが可能になります。
私の主張は、すべてのソフトウェア開発者が自分自身で学ぶこと、そしてそのための最良のツールがインターネットであるということです。
そして、そのためには「ググる力」を身につけることが不可欠です。
# ヨーロッパの主要都市におけるソフトウェアエンジニア向けベストカンパニー
ヨーロッパの各都市でソフトウェアエンジニアにとって最適な企業を探しているなら、以下のリストが参考になるでしょう。
Google, Facebook, Snap, NVIDIA, Microsoft, Apple, Oracle, Snyk, GetYourGuide, UBS, Swisscom, DFINITY, Cisco.
Google, Facebook, Snap, Jane Street, Stripe, Coinbase, Apple, Amazon, Hudson River Trading, Citadel, ByteDance, Two Sigma, Palantir, Bloomberg, Revolut, GSA Capital, Marshall Wace, Quadrature, Five Rings, G-Research, Starling, Personio, DeepMind, DRW, Millenium, BlackRock, MAN Group, Jump Trading, DE Shaw, AQR, Maven Securities, Point72, IMC, Optiver, Susquehanna (SIG), XTX, Old Mission, Squarepoint, Qube Research & Technologies (QRT), Yelp.
Uber, Databricks, Bitvavo, Booking, Miro, Flexport, Atlassian, Spotify, Optiver, IMC, Amazon, Adyen, Google, Stripe, Flow Traders, MessageBird, Reddit, Box, JetBrains, Personio, Elastic, GitHub, Catawiki, Tower Research, Radix Trading, Headlands Technologies, Tomtom.
Google, Meta, Datadog, Criteo, Microsoft, Stripe, Airbnb, Amazon, Atlassian, Hubspot, Workday, Ankorstore, Red Hat, Algolia, Alan, 360Learning, ContentSquare.
AWS, Amazon, Microsoft, Wayfair, Google, Meta, Apple, HubSpot, Stripe, NVIDIA, Snowflake, Personio, Databricks, JetBrains.
AWS, Microsoft, Google, Mastercard, Workday, Salesforce, Meta, Stripe, VMware, LinkedIn, Etsy, Personio, ByteDance, Coinbase, Hubspot.
Google, Apple, Microsoft, Nvidia, Adobe, Workday, Celonis, BMW, Salesforce, SIXT, SAP, Huawei, Personio, Intel, JetBrains, IBM.
Google, Snowflake, Netflix, Pinterest, Rippling, Oracle, Waymo, AMD, Samsung, NVIDIA, Box, Warner Bros, Visa, Amazon.
Amazon, Apple, New Relic, Stripe, Rippling, Revolut, Skyscanner, Microsoft, N26, Criteo, Adobe, Thoughtworks, Oracle, Glovo, Personio.
Apple, Amazon, Roku, Arm, Microsoft, Qualcomm, MathWorks, AMD.
Amazon, Oracle, Microsoft, Flutter, Unity, Skyscanner, Huawei.
Databricks, Microsoft, Nutanix, Rivian, Foursquare, Yandex, JetBrains, Nordeus, Luxoft.
Amazon, Datadog, Microsoft, Apple, Google, Personio, Twilio, Glovo, VMware, Meta, Oracle, Revolut.
Klarna, Spotify, Netlight, PayPal, Ericsson, Ubisoft, Warner Bros, King, Google, Oracle, AWS, Microsoft, Wolt.
Google, Rippling, Oracle, Revolut, Uber, Amazon, Deliveroo, IBM, Splunk.
Crowdstrike, UI Path, Google, Adobe, Stripe, Microsoft, Oracle, IBM, Amazon, Electronic Arts (EA).
Microsoft, Maersk, Zendesk, Workday, Unity.
Productboard, Pure Storage, Apple, Workday, Oracle, Microsoft, JetBrains, Proton, Parrot.
Bolt, Wise, Microsoft, Twilio, Wolt.
Microsoft, Cisco, Aker Solutions, Arm, Mastercard, Meta, Kahoot, Autostore, Remarkable, Netlight.
これらの都市は、ソフトウェアエンジニアにとって多くの機会を提供しています。それぞれの都市が提供する企業は、エンジニアが自身のキャリアを発展させるための多くの選択肢を提供しています。それぞれの企業が提供する機会や文化は、エンジニアが自身のキャリア目標に合わせて最適な選択をするのに役立ちます。 [
https://anond.hatelabo.jp/20240415070458
約10年前、Evernoteが多くの推薦を受けていたことを覚えています。安価なサービスがユーザーを引きつけた後に突然終了するのは、残念ながら一般的な現象です。マイクロソフトのOneNoteのようなメモアプリの必要性については、個々のニーズによって異なります。GitHubはコードやプロジェクト管理には優れていますが、日常的なメモやドキュメントの整理には最適ではないかもしれません。Vercelとの連携による認証付きホスティングの無料提供は魅力的です。Googleサイトも文書やメモの保管には有効な選択肢です。マークダウンの使用や、テキスト以外の内容をJPGなどの画像フォーマットで保存する方法は、特定のアプリケーションに依存しないため賢明な選択です。マイクロソフトオフィスの使用を避けたい理由は理解できますが、Excelの関数のような便利な機能もあります。そして、テヘランがイランの首都であることは興味深い事実です。確かに、マイクロソフトがサービスを突然終了することは稀ではありませんが、それは業界全体の問題でもあります。
フリーレンが集めてるしょーもない魔法は、pipとかnpmに上がってるしょーもないパッケージ
っていうのを集めてる
魔法の解析はリバースエンジニアリングのことで、フリーレンはその天才
で、魔法は単純なプログラミングコードではなくてLLMをベースにしたコードになっていて
魔力っていうのはそのLLMのモデルの大きさ
長い年月をかけてLLMを追加学習させることで魔力を増やしていくが人間はそのモデルの大きさを誇ろうとしない
魔力の揺らぎはLLMの出力の微妙な違いのことで、LLMのモデルが大きいと
「単純な答えのように見えるけど微妙に違っていて実は大きなモデルなのでは?」
と気付く
AIなのでLLMしか取り柄が無く、モデルの大きさでマウントを取り合うのが魔族
ただ人間と違って死ぬことがないので魔族の使うプロンプトエンジニアリングはまるで理解できず
人間が再現できないLLMベースのプログラミングコードは「呪い」として扱われてる
逆に、働いて沢山稼がなければ生きていけないという縛りが無駄な仕事を生み出し、無駄な労働で勝手に消耗してるっていう側面も無視できないよ。
みんなが出世競争に明け暮れ、各部署で協力し合うどころか、責任のなすり付け合い。
各々が自分さえ良ければいいと考えていなければ会社では生き残れない。
そのせいで社内で情報共有が進まず、作業の共通化ができず、みんなやってることがバラバラ。
社会に貢献しないような、それをまとめる間接作業が膨れ上がるばっかり。
そんで、Githubでソース眺めてると、どれも綺麗に整頓されてるなって思うけど、