「テスト」を含む日記 RSS

はてなキーワード: テストとは

2024-06-01

anond:20240601173759

つーか東工大しろ京大しろ

女子入試の「面接」って、各学科の専門分野の質問に対して資料作ったり口頭で説明しろ、って内容みたいなんだが

あと東工大総合入試女子枠以外に一般枠もあってこっちは帰国子女とか留学生向けっぽい

共通テストでの選抜もあるし、筆記試験全くやらなくて良いわけじゃないだろこれ

面接と聞いて「志望動機は何ですか」「高校生時代に頑張った事は」みたいな質問するものだと思っていて

それでどうせジジイ教官の気に入る可愛い子だけ採るつもりなんだろ!とか思ってんのかな

生成AI設計人間がするけど実装コードに関してはAI任せみたいな時代は来るのじゃないかと思ってる。

まあただ動作保証設計を兼ねて人間テストコードを書くのであろうが。

2024-05-31

増田ってAAどうだっけ?ってテスト

    ∧∧  / ̄ ̄ ̄ ̄ ̄

   (,,゚Д゚)< ホイクエンオチタニホンシネ!!!

   ⊂  ⊃ \_____

  ~|  |

    し`J

AA記法なんでつかえないんだろ

(^q^)あーうー光をどうにゅううんした

結論から言うと別に速くなかった

結局(^q^)あーうー光のモデムの時点で100mbsリンクらしく、テストすると90しか出ない

(^q^)じぇいこむが200出ていたことを考えるとここは劣化である

だがアップロードも90なのでここは改善である

(^q^)じぇいこむは10だったし稀によく(^q^)あうあうあーして(^q^)ぱしへろんだすwwwwwwwだったので、まあ、(^q^)あーうー光はそこに期待

別部屋の同居人と同時に動画見たときとかの挙動心配

[] 施策実施前と実施後の比較目視確認できるようにする

モデルAは特徴量を10000個使っていたが、追加で4000個の特徴量を付与したモデルBを作ったとする。

モデルAとモデルBをテストデータを使ってテストすることも可能だが、使用感を確かめるなどの目的場合は、入出力を明確化してデモにするとわかりやすかったりする。

例えばそれは「検索エンジン」のモデルだったりするわけだが、モデルAとBを切り替えるボタン検索エンジンデモに用意しておき、検証可能にしておくのである

具体的には、検索クエリ入力し、その結果をモデルAとモデルBで比較できるようにするということだ。

それにより、各モデルがどのように異なる結果を生成するか、また新たに追加された特徴量が結果にどのように影響を与えるかを直接確認できる。

ただし、このデモ設計する際には、結果を解釈するのを助けるために、各モデルの主要な特徴と動作原理についての説明提供する。

これにより、モデル選択とその結果に対する理解を深めることができる。

anond:20240530235634

そうだな。パッチテストの類がそのうち出たら良いな。

CBDは知ってる?

2024-05-30

野比のび太っていつも0点取ってるし

かに幽霊だー!」とか言われても

「なんで僕の昨日のテストの結果知ってるの!?

とか返しそう

それでいつの間にかそばにいた野比ママ

「まあ、また0点とったのね!」って

叱られてそう

2024-05-29

陸海軍ドローン無人機全般を指す意味で)に覆われつつあるけど人間兵士なにするの?

スパイ・整備・EMP下での肉弾戦ぐらいしか使い道ないよね?

でも自衛隊にはそれ全部無理じゃね?

社会に溶け込む能力が低いかスパイには向いてないし、情報漏洩しまくりだからスパイにも弱い。

機械の整備は最低限を除けば会社任せな上に、儲からなすぎて会社が次々撤退してる。

オタクデブばっかりで懸垂1回出来ればセーフみたいなグダグダの体力テストやってる現状。

もう終わりだね。

完全に使い物にならない人達の集まりだ。

全員クビにしてPMC雇ったほうが早いよ。

anond:20240529164045

言ってないことを言ったことにするのやめてもらっていいすか?

いかブラックボックステストをするために、マニュアルテストデータ作成する

これが俺がずっと言ってることね

anond:20240529163634

はい、交差検証法はホールドアウト分割を繰り返し行う手法です。

## 交差検証法の手順

1. データセットを複数フォールド(部分集合)に分割する。[1][2]

2. 1つのフォールドをテストデータ、残りをトレーニングデータとしてモデルを構築する。[1][2]

3. テストデータモデル評価し、評価指標(精度など)を記録する。[1][3]

4. 2と3を、すべてのフォールドが1回ずつテストデータになるまで繰り返す。[1][2]

5. 各フォールドでの評価指標の平均を最終的な評価値とする。[1][2][3]

まり、交差検証法はホールドアウト分割(トレーニングデータテストデータに分割)を複数回行い、その結果を平均化することで、より信頼性の高い汎化性能評価を行う手法なのです。[1][2][3]

この繰り返しによって、特定データ分割に左右されずに、より客観的評価ができるというメリットがあります。[1][2]

代表的な交差検証法には、k分割交差検証やLOOCV(Leave-One-Out Cross-Validation)などがあり、データ量に応じて使い分けられます。[1][2]

Citations:

[1] https://shoblog.iiyan.net/cross-validation/

[2] https://ja.wikipedia.org/wiki/%E4%BA%A4%E5%B7%AE%E6%A4%9C%E8%A8%BC

[3] https://qiita.com/RyutoYoda/items/4ca997771e99d6c39ddb

[4] https://aiacademy.jp/media/?p=263

[5] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

anond:20240529163634

わかってないのはお前だろ

ホールドアウト分割を繰り返してるんだよ交差検証ってのは

テストデータブラックボックステストってのはそれとは別で、マニュアルアノテーションしてテストデータを作んの

低能にもこの説明でわかったか

anond:20240529163337

はい、Kaggleのようなブラックボックスリーダーボード評価する現場存在します。

## 機械学習モデル評価方法

機械学習モデル評価には、一般的に以下の2つの方法があります

1. **ホールドアウト評価**: 学習データを訓練データテストデータに分割し、テストデータモデル評価する方法。[1]

2. **ブラックボックス評価**: 評価用のデータセットが公開されず、サーバーモデルを提出して評価される方法。Kaggleのコンペティションがこの方式。[1][2]

## ブラックボックス評価の利点

ブラックボックス評価には以下のような利点があります

## ブラックボックス評価現場

まり、Kaggleのようなブラックボックス評価は、機械学習の様々な現場採用されている評価方式の1つであり、特に運用に近い評価が求められる場合有効手段となっています。[1][2][3]

Citations:

[1] https://qiita.com/Shun_PI/items/896d05ed9689f4b24347

[2] https://www.kikagaku.co.jp/kikagaku-blog/kaggle-competition/

[3] https://www.kikagaku.co.jp/kikagaku-blog/signate-competition/

[4] https://www.topgate.co.jp/blog/google-service/8707

[5] https://www.jst.go.jp/crds/pdf/2023/RR/CRDS-FY2023-RR-02.pdf

anond:20240529163303

バリデーションとテストと分けたところで、ホールドアウト分割だろ?

交差検証してもホールドアウト分割だろ?

anond:20240529162025

あー

クロスバリデーションでバリデーションセットとテストセットの話なんだよね

バリデーションとテストってさんざ言ってるんだから知ってればわかると思うけど

anond:20240529161624

から期限と一日あたりのモデル送信数に設けるんだよ

それを超えたらテストデータ自体更新する

どちらにせよ、ホールドアウト分割よりは過学習を防げる

anond:20240529161433

「わかりきった話」という言葉のチョイスは間違えたかも知れないが、テストデータが不均衡だと不都合すると言いたかった

anond:20240529161046

ブラックボックステストがありえない?何いってんだお前?

しろブラックボックス以外のテストはできないだろ、頭おかしいのか?

開発者テストデータのラベルを見れる時点で、それはテストではない

anond:20240529160835

コンペみたいにリーダーボード評価するようにするんだよ、知らんのか?

テストデータを「1回しか利用できない」なんてことはなく、ラベル開発者バラさなければいい

anond:20240529160542

君Kaggleしかやった事ないのでは?

ブラックボックステストデータプロダクションではあり得ないぞ

あるとすれば新たに入ってくる生データ

anond:20240529160440

訓練データ分布が、99%がTrue1%Falseってタイプのやつだとするだろ?

それでそのまま評価するにしろF1を使うにしろ実用の精度の評価は難しいんよ

なぜって?「ほぼTrueでいけるやろ」の学習をしがちだから

F1評価するにしても、それは「ランダム分類機よりは汎化性能が高い」ということならわかるが、実用判断だと「Falseの見逃しは減らせ!」ってことが結構ある

そんで、テストデータでTure50%False50%としておけば実用上の性能の評価はやりやすいって話ね

anond:20240529160542

からバリデーションと分けるんだけど

謎のテストデータがどこかにあったら一回しか使えないだろ

anond:20240529160226

お前、ホールドアウト分割したところで実用テストにならんのまず理解してる?

訓練データ分布で話してるよねそれ

anond:20240529155023

不均衡に関しては、テストデータを作る際のラベルの分量のバランスを気をつけろという話ね

いくらAUCF1で良い精度が出たと言っても、実データ分布実用レベルの結果が出ないと話にならんので

ログイン ユーザー登録
ようこそ ゲスト さん