2025年05月21日の論文要約

Forewarned is Forearmed: A Survey on Large Language Model-based Agents in Autonomous Cyberattacks

2025年05月21日 04:21

https://arxiv.org/abs/2505.12786v1 C(・ω・ )つみんなー！こんにちは、サイバー探検隊のみんな！🌟最近の研究で、超賢い「大きな言語モデル（LLM）」がハッカーの仲間になっちゃったんだって！🤖💥彼らは簡単に悪いことをお手伝いできるから、サイバー攻撃がもっと簡単に、もっと大規模に！😱でも安心して！この論文では、LLMが引き起こすサイバーの危険と、その対策を探る冒険が待っているよ！🔍✨一緒に未来のサイバー防衛を考えよう！💪🛡️

arXiv

EAVIT: Efficient and Accurate Human Value Identification from Text data via LLMs

2025年05月21日 04:20

https://arxiv.org/abs/2505.12792v1 C(・ω・ )つみんなー！こんにちは！✨今回は「EA VIT」という新しいフレームワークを紹介するよ！このすごい技術は、言葉の中から人間の大切な価値を見つけるのをお手伝いするんだ！💡従来のやり方よりも、短い言葉でスイスイと価値を探し出しちゃうから、すっごく効率的！💨しかも、コストもお得なんだって！お金を節約しながら、みんなの大事な価値を見つけるヒーローみたいな存在だよ！😄✨さあ、一緒にこのワクワクする世界を探検しよう！🚀

arXiv

FRAbench and GenEval: Scaling Fine-Grained Aspect Evaluation across Tasks, Modalities

2025年05月21日 04:20

https://arxiv.org/abs/2505.12795v1 C(・ω・ )つみんなー！🎉やっほー！みんな、大注目の新しい研究が出たよ～！✨この論文では、すっごい大きな言語モデル（LLM）の評価をもっと楽しく、正確にする方法を発見したんだ！📊💡「FRAbench」という新しい基準を使って、60,000以上のサンプルを分析！多様なタスクや画像でも評価できる「GenEval」っていう新しい評価者も登場！👀💖これで、みんなのアイデアや創造性をもっと正しく評価できちゃうよ！さぁ、一緒に未来の評価方法を楽しもう！🚀🎨

arXiv

PsyMem: Fine-grained psychological alignment and Explicit Memory Control for Advanced Role-Playing LLMs

2025年05月21日 04:20

https://arxiv.org/abs/2505.12814v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究「PsyMem」は、キャラクターの心をもっと深く理解しちゃうんだ！😄ただのセリフじゃなくて、キャラクターの性格や記憶を詳しくモデル化して、リアルな役割演技を実現！🎭✨お話の中でキャラクターがずっと同じ性格を保てるから、信じられる社会シミュレーションができちゃうよ！🌟みんなも自分だけのキャラクターを作って、楽しい冒険に出かけよう！🚀💖

arXiv

Mitigating Hallucination in VideoLLMs via Temporal-Aware Activation Engineering

2025年05月21日 04:19

https://arxiv.org/abs/2505.12826v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場したよ！動画を理解するAIが「ハルシネーション」っていう間違ったことを言っちゃう問題を解決するんだって！👀✨この研究では、時間に敏感な「アクティベーションエンジニアリング」って技術を使って、AIが正しいことを言うようにするんだ！🛠️これで動画の勉強や情報提供がもっと正確に！🌈未来のAIはもっと賢くなるぞ〜！🚀

arXiv

Contrastive Prompting Enhances Sentence Embeddings in LLMs through Inference-Time Steering

2025年05月21日 04:19

https://arxiv.org/abs/2505.12831v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場したよ！「Contrastive Prompting」っていう方法を使って、文章をもっとスッキリ、もっとスマートに理解できるようにしたんだ！📚✨今までの方法は、余計な言葉がいっぱい入ってたけど、これを使うと本当に大事な意味だけをピシッとキャッチ！💪💡色んな言葉を比べることで、文章の核心をグッと引き出せるんだって！これでみんなも、文章をもっと楽しめるかも！🚀💖

arXiv

Reasoning BO: Enhancing Bayesian Optimization with Long-Context Reasoning Power of LLMs

2025年05月21日 04:19

https://arxiv.org/abs/2505.12833v1 C(・ω・ )つみんなー！やっほー！🎉新発見のお知らせだよ！「Reasoning BO」っていう新しい方法が登場したんだ！✨これを使うと、難しい問題を解くのが超得意なAIがサポートしてくれて、驚くほど良い結果が出るんだって！💡例えば、化学の実験で、収穫量がなんと60.7%もアップ！🌟AIが賢く考えて、最適な方法を提案してくれるから、君も未来の科学者になれるかも！？🚀一緒にこのワクワクを体験しよう！💖

arXiv

TIME: A Multi-level Benchmark for Temporal Reasoning of LLMs in Real-World Scenarios

2025年05月21日 04:18

https://arxiv.org/abs/2505.12891v1 C(・ω・ )つみんなー！🎉やったね！新しい研究「TIME」が登場だよ！🕒この研究は、大きな言語モデルが時間に関する考え方をもっと上手にできるようにするための特別なテストを作ったんだ！🌟38,522の質問があって、リアルな状況での時間の流れや人とのやり取りを考慮してるんだよ！🤖✨これで、みんながもっと賢くなれるかも！未来のAIが時を超えて活躍する準備はバッチリだね！🚀💫

arXiv

On the Thinking-Language Modeling Gap in Large Language Models

2025年05月21日 04:17

https://arxiv.org/abs/2505.12896v1 C(・ω・ )つみんなー！やっほー！🌟みんな、すごい発見があるよ！最近の研究で、大きな言葉モデル（LLM）が「考える」力を持っていることがわかったんだ！🤖💭でもね、実は言葉と心の間には大きなギャップがあって、偏見が入り込んじゃうんだって！そこで「思考の言葉（LoT）」っていう新しい技術を使って、LLMがもっと正確に考えられるようにする方法を提案してるよ！✨これで問題解決がもっとスムーズになるかも！ワクワクするね！🎉

arXiv

Do Not Let Low-Probability Tokens Over-Dominate in RL for LLMs

2025年05月21日 04:17

https://arxiv.org/abs/2505.12929v1 C(・ω・ )つみんなー！やっほー！🌟大きな言葉を持つロボットたちが、もっと賢くなるための新しい方法を発見したよ！🤖✨「低い確率の言葉」が強すぎて、高い確率の言葉が影響を受けちゃう問題を解決するために、面白い2つのアイデアを提案したんだ！🎉その名も「アドバンテージ再重み付け」と「低確率トークン隔離」！これで、もっとバランスよく学べて、難しいパズルもクリアできちゃうかも！🧩💪みんなも応援してね！🎈

arXiv

Leveraging LLM Inconsistency to Boost Pass@k Performance

2025年05月21日 04:16

https://arxiv.org/abs/2505.12938v1 C(・ω・ )つみんなー！やっほー！🚀大きな言葉を使うモデルたちが、ちょっとした入力の違いでうまくいかないことがあるって知ってた？🤔でも、そんな不安定さを逆に利用して、解決策を増やす方法が登場したよ！✨「バリエーター」っていう新しいエージェントが、同じ問題のいろんなバージョンを作って、解決策をたくさん提案するんだ！💡これで、成功率がグーンとアップするかも！😆未来のAIの活用法、ワクワクするね！🎉

arXiv

DGRO: Enhancing LLM Reasoning via Exploration-Exploitation Control and Reward Variance Management

2025年05月21日 04:16

https://arxiv.org/abs/2505.12951v1 C(・ω・ )つみんなー！やっほー！✨今日は特別な研究「DGRO」を紹介するよ！🦄この研究は、大きな言葉のモデル（LLM）がもっと賢くなるための秘密兵器なんだ！🔍「探索と活用」を上手にバランスをとることで、難しい問題を解決しちゃうんだよ！💡しかも、報酬の変動をうまく管理することで、さらなる進化を遂げるんだって！🚀実験結果も最高で、論理パズルで96.9%の正解率を達成！🎉これからのAIの未来がワクワクするね！✨

arXiv

From Assistants to Adversaries: Exploring the Security Risks of Mobile LLM Agents

2025年05月21日 04:16

https://arxiv.org/abs/2505.12981v1 C(・ω・ )つみんなー！🎉やっほー！みんな、スマホに超賢いAIアシスタントがいるって知ってた？🤖✨でも、その裏には危険がいっぱい！？この新しい研究では、スマホのAIエージェントがどんな悪いことに使われるかを探ったんだ！📱💣「AgentScan」っていう特別なツールで、9つのエージェントのセキュリティをチェックしたら、どれも危険すぎることが分かったよ！😱🔍 みんなもこの面白い発見を知って、安全にスマホを使おうね！💪💖

arXiv

An Empirical Study of Many-to-Many Summarization with Large Language Models

2025年05月21日 04:15

https://arxiv.org/abs/2505.12983v1 C(・ω・ )つみんなー！🌟みんな、注目！新しい研究が登場だよ～！「多言語要約」って知ってる？📚✨なんと、いろんな言語の文書をまとめて、別の言語で要約しちゃうんだ！すごいでしょ？🤩大きな言語モデル（LLM）を使って、さまざまなデータを駆使して実力を試したんだって！その結果、LLMたちが超優秀で、従来のモデルをも超えちゃったの！🚀でも、ちょっとした問題もあるらしい…それは、事実を間違えちゃうこと！🤔これからの研究が楽しみだね！✨

arXiv

Personalized Fine-Tuning with Controllable Synthetic Speech from LLM-Generated Transcripts for Dysarthric Speech Recognition

2025年05月21日 04:15

https://arxiv.org/abs/2505.12991v1 C(・ω・ )つみんなー！こんにちは！🎉新しい研究が登場したよ！「ダイサルサリックスピーチ」をもっと理解するために、特別な人工音声を使って訓練したり、個々の話し方にピッタリ合わせる技術があるんだ！🤖✨これで、話しにくい人たちもスマホと仲良くなれるかも！📱💬新しいアイデアで、みんなの声を助けるって、すごくワクワクするよね！🚀💕

arXiv

EffiBench-X: A Multi-Language Benchmark for Measuring Efficiency of LLM-Generated Code

2025年05月21日 04:15

https://arxiv.org/abs/2505.13004v1 C(・ω・ )つみんなー！🎉こんにちは、みんな！新しい冒険が始まるよ！🚀「EFFIBENCH-X」っていうすごいベンチマークが登場したんだ！💻✨これまでのコード生成は正しさだけだったけど、今度は効率もバッチリ測れるんだよ！✨PythonやC++、Javaなど、いろんな言語に対応してるから、みんなの好きな言語で挑戦できるよ！💪でも、AIは人間のエキスパートにはまだまだ追いつけないみたい。もっと頑張ってほしいね！🔍💖さあ、みんなも一緒にコードの世界を楽しもう！🌟

arXiv

Step-wise Adaptive Integration of Supervised Fine-tuning and Reinforcement Learning for Task-Specific LLMs

2025年05月21日 04:14

https://arxiv.org/abs/2505.13026v1 C(・ω・ )つみんなー！🎉やっほー！新しい研究が登場したよ！🌟その名も「SASR」！これは、スーパーヒーローみたいに、スーパーバイザードファインチューニング（SFT）と強化学習（RL）を合わせて、特別なタスクにピッタリの大きな言語モデルを育てる方法なんだ！🤖✨最初はお勉強して、次にクイズ形式で挑戦するから、賢くなれること間違いなし！🧠💪実験でも大成功を収めたんだって！みんなも一緒にこのワクワクを体験しよう！🚀🎈

arXiv

Evaluatiing the efficacy of LLM Safety Solutions : The Palit Benchmark Dataset

2025年05月21日 04:14

https://arxiv.org/abs/2505.13028v1 C(・ω・ )つみんなー！やっほー！🌟みんな大好きな大規模言語モデル（LLM）を守るための新しい研究が登場だよ！🛡️悪い人たちが悪用する「悪意のある質問」を使って、LLMがどれだけ危険かを調査したんだ！🤖✨13個のセキュリティツールをチェックして、どれが一番優れているかを比べたんだよ！結果は超面白い！📊💥LLMを安全に使うためのヒントもいっぱい！みんなもLLMの世界を安心して楽しもう！🎉💖

arXiv

LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs

2025年05月21日 04:11

https://arxiv.org/abs/2505.13098v1 C(・ω・ )つみんなー！やっほー！🌟新しい研究「LLM-KG-Bench 3.0」が登場したよ！このすごいフレームワークは、言葉を理解するロボットたち（大きな言語モデル）が、知識グラフをどう扱えるかを比べるための道しるべなんだ！🧙‍♂️✨今までのモデルとどれが一番スゴイか、簡単に評価できるようになったんだよ！RDFやSPARQLっていう難しい言葉も、みんなで楽しく学べちゃう！🌈これで、みんなもAIの世界を冒険しよう！🚀✨

arXiv

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

2025年05月21日 04:11

https://arxiv.org/abs/2505.13109v1 C(・ω・ )つみんなー！やっほー！🌟みんな、すごい新しい技術「FreeKV」を紹介するよ！✨これ、巨大な言語モデルがもっと賢くなるための秘密兵器なんだ！📚💡長い文章を扱うとき、従来の方法だと遅くてイライラしちゃうけど、FreeKVはスピードアップしつつ、正確さもバッチリキープ！🚀✨これで新しいアプリがどんどん作れるね！🤖💖みんなも未来の技術にワクワクしよう！

arXiv

Understanding Cross-Lingual Inconsistency in Large Language Models

2025年05月21日 04:10

https://arxiv.org/abs/2505.13141v1 C(・ω・ )つみんなー！やっほー！✨大きな言語モデル（LLM）が、いろんな言語で考えるのが得意なんだけど、同じ質問に対してバラバラな答えを出しちゃうことがあるんだ！🤔この研究では、モデルがどうやって言語を超えて知識を伝えるのかを探ったよ！🔍英語の力を借りることで、もっと一貫した答えが出せるようになるんだって！📚✨さあ、言葉の冒険に出かけよう！🌍💫

arXiv

Role-Playing Evaluation for Large Language Models

2025年05月21日 04:10

https://arxiv.org/abs/2505.13157v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究が登場したよ！それは「ロールプレイ評価」という面白い方法で、大きな言語モデル（LLM）がキャラクターになりきる力をチェックするんだ！🤖✨感情の理解や決断力、道徳的な判断、キャラクターの一貫性を評価しちゃうんだって！これで、AIがまるで人間みたいにおしゃべりできるかを試せるんだよ！すごくワクワクするね！💖詳しくは、研究者たちのコードとデータセットを見てみてね！📚🔍

arXiv

Positional Fragility in LLMs: How Offset Effects Reshape Our Understanding of Memorization Risks

2025年05月21日 04:10

https://arxiv.org/abs/2505.13171v1 C(・ω・ )つみんなー！やっほー！🌟大きな言葉のモデルが、どれだけ内容を覚えているかを探る新しい研究が出たよ！🤖✨「ポジショナルフラジリティ」っていう面白い現象を発見したんだ！短い言葉を使うと、記憶力がグーンと上がっちゃうんだって！📚💡だから、データをちょっとずつずらすと、記憶が抑えられるかも！これで著作権の問題も解決できるかもね！🙌🎉さあ、みんなも一緒に言葉の冒険に出かけよう！🌈✨

arXiv

A Case Study of Cross-Lingual Zero-Shot Generalization for Classical Languages in LLMs

2025年05月21日 04:09

https://arxiv.org/abs/2505.13173v1 C(・ω・ )つみんなー！🌟おっはー！みんな、古代の言葉って知ってる？この論文は、サンスクリットや古代ギリシャ語、ラテン語に挑戦する最新のAI技術のお話だよ！🤖✨大きな言語モデルが、古い言語でもスイスイ問題を解いちゃうんだ！📚💡特に、サンスクリットのクイズに答えるための面白い方法も紹介してるよ！みんなもこの不思議な言葉の世界に飛び込んでみよう！🚀💖

arXiv

Enhancing LLMs for Time Series Forecasting via Structure-Guided Cross-Modal Alignment

2025年05月21日 04:09

https://arxiv.org/abs/2505.13175v1 C(・ω・ )つみんなー！やっほー！✨新しい研究「SGCMA」は、時間の流れを言葉のように理解しちゃう魔法の仕組みなんだ！⏰📚これは、時間のデータを言葉に変えて、すっごく賢いAI（LLM）に教えちゃうんだよ。これで、未来を予測する力が倍増！🌈💡さあ、一緒にこのワクワクする時系列予測の旅に出かけよう！🚀💖

arXiv

Adversarial Testing in LLMs: Insights into Decision-Making Vulnerabilities

2025年05月21日 04:08

https://arxiv.org/abs/2505.13195v1 C(・ω・ )つみんなー！こんにちは！🌟新発見のお知らせだよ！🎉大きな言葉を使うロボット（LLM）が、実はちょっと困ったお友達かも知れないって研究が出たんだ！🤖💭この研究では、ロボットたちがどうやって選択をするのかを遊びの中で探ってるんだよ！🎲✨その結果、ロボットたちが難しい状況でどうなるかがわかっちゃった！💡これからのAIの安全性を考える上で、超重要な発見なんだ！🚀みんなもAIのこと、もっと知りたくなるよね？😊💖

arXiv

Quantum Knowledge Distillation for Large Language Models

2025年05月21日 04:08

https://arxiv.org/abs/2505.13205v1 C(・ω・ )つみんなー！🎉やっほー！みんな、大きな言葉のモデル（LLM）をもっと軽くする新しい方法を発見したよ！✨それは「量子知識蒸留」っていう、量子コンピュータを使ったスゴイ技術なんだ！💡これを使うと、重たいモデルをサクサク動かせる小さなモデルに変身させられるんだよ！🌟実験でも、すごく早く、少ないリソースで働くことができたんだって！🚀未来のAIがもっと身近になる予感！ワクワクするね～！😊💕

arXiv

Agentic Publications: An LLM-Driven Framework for Interactive Scientific Publishing, Supplementing Traditional Papers with AI-Powered Knowledge Systems

2025年05月21日 04:07

https://arxiv.org/abs/2505.13246v1 C(・ω・ )つみんなー！🌟こんにちは！科学の未来を変える「エージェンティックパブリケーション」を紹介するよ！📚✨この新しい仕組みは、普通の論文をインタラクティブな知識システムに変えちゃうんだ！AIがサポートして、難しいこともカンタンに理解できる！🤖💡わくわくする発見がどんどんできる世界が待ってるよ！みんなも一緒に科学の冒険に出かけよう！🚀🔍

arXiv

Natural Language Planning via Coding and Inference Scaling

2025年05月21日 04:07

https://arxiv.org/abs/2505.13252v1 C(・ω・ )つみんなー！やっほー！🎉新しい論文が登場だよ！この研究では、大きな言語モデル（LLM）がどれだけ上手に計画を立てられるかを探ってるんだ！🤖✨面白いのは、ただの計画じゃなくて、プログラムを使って計画を実行する方法を試してるってこと！📝💡これによって、より賢く、しっかりした計画ができるかも！みんなも一緒に未来の計画を考えてみよう！🚀🌈楽しんでね！

arXiv

HeteroSpec: Leveraging Contextual Heterogeneity for Efficient Speculative Decoding

2025年05月21日 04:07

https://arxiv.org/abs/2505.13254v1 C(・ω・ )つみんなー！やっほー！🎉新しい研究「HeteroSpec」が登場だよ！これは、大きな言葉のモデル（LLM）の速さをグーンと上げる魔法のような技術なんだ✨言葉の難しさに合わせて、計算リソースを賢く使うってアイデアがすごい！📈例えば、簡単な言葉の時はサクサク進めて、難しい時は慎重に進むの！これで、時間も節約できて、結果もバッチリ👌新しい言葉の冒険、みんなも一緒に楽しもう！🌟

arXiv

From Automation to Autonomy: A Survey on Large Language Models in Scientific Discovery

2025年05月21日 04:06

https://arxiv.org/abs/2505.13259v1 C(・ω・ )つみんなー！やっほー！🌟最近の研究で、すごーい「大規模言語モデル（LLM）」が科学の発見を変えちゃうお話があるよ！🤖✨このモデルは、ただのツールから自律的な研究者へ進化中！🔍💡観察からデータ分析まで、科学のすべてのステージで活躍するんだって！🚀💥未来の科学者たちがAIと一緒に新しい発見をする姿、ワクワクするよね！💖もっと知りたい？一緒に探求しよう！📚🔭

arXiv

Are requirements really all you need? A case study of LLM-driven configuration code generation for automotive simulations

2025年05月21日 04:06

https://arxiv.org/abs/2505.13263v1 C(・ω・ )つみんなー！🚗✨みんな、注目！新しい研究が登場したよ～！🤖💡この論文では、大きな言語モデル（LLM）が自動車のシミュレーションのためのコードを、ふわふわした要件からサクッと生成しちゃうんだ！🌟🚀複雑なルールを理解して、実際のテストに使えるコードを作るなんて、まるで魔法みたいだね！🪄🎉自動運転車の未来が、もっと身近になるかも！みんなでワクワクしよう！😆💕

arXiv

Cross-Cloud Data Privacy Protection: Optimizing Collaborative Mechanisms of AI Systems by Integrating Federated Learning and LLMs

2025年05月21日 04:05

https://arxiv.org/abs/2505.13292v1 C(・ω・ )つみんなー！こんにちは！✨データのプライバシーを守る新しいヒーローが登場したよ！🌈この論文では、みんなのデータを安全に守りながら、AIが協力して学ぶ方法を提案してるんだ！🤖💪「フェデレーテッドラーニング」と「大規模言語モデル」を組み合わせて、データをバラバラに管理しつつ、賢いAIを育てるんだよ！🌟これで、みんなの大事な情報も安心！一緒に未来の技術を楽しもう！🚀💖

arXiv

GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection

2025年05月21日 04:04

https://arxiv.org/abs/2505.13312v1 C(・ω・ )つみんなー！🎉こんにちは！みんな、すごいニュースだよ！✨新しい研究「GUARD」が登場！これは、大きな言葉のモデルが「忘れたいこと」を安全に忘れられるお手伝いをするんだ！🤖💭例えば、ハリーポッターの著作権に関することを忘れたい時、GUARDが助けてくれるよ！📚💨しかも、普通に話す時の流暢さはそのまま！これで、もっと安全に楽しくAIとおしゃべりできるね！😄💖ワクワクが止まらない！

arXiv

Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

2025年05月21日 04:04

https://arxiv.org/abs/2505.13326v1 C(・ω・ )つみんなー！やっほー！みんな、AIの世界にびっくりするような新発見があるよ！✨大きな言葉のモデル（LLM）が、考える時間を短くして、でも正しい答えを出す方法を見つけたんだ！🧠💡「SART」っていう新しい仕組みで、無駄に長い考えを減らして、サクサク動くようになったんだよ！🎉これでAIがもっと賢く、早くお手伝いしてくれるって！ワクワクするね〜！🚀💖

arXiv

Contextual Paralinguistic Data Creation for Multi-Modal Speech-LLM: Data Condensation and Spoken QA Generation

2025年05月21日 04:04

https://arxiv.org/abs/2505.13338v1 C(・ω・ )つみんなー！みんなー！🎉新しい研究が登場したよ！音声と文章をつなげるスゴイ仕組みを作ったんだ！🤖✨「感情を理解する質問」を作るために、リアルな会話データを使って、もっと賢いAIを目指してるんだって！💡感情を感じ取る力を高めることで、AIがもっと優しく、賢くなるかも！🌈これからの会話が楽しみだね！みんなも応援してね！📣💖

arXiv

J4R: Learning to Judge with Equivalent Initial State Group Relative Preference Optimization

2025年05月21日 04:03

https://arxiv.org/abs/2505.13346v1 C(・ω・ )つみんなー！やっほー！😄新しい論文「J4R: 学ぶジャッジ、賢い評価！」が登場！✨大きな言語モデル（LLM）が他のモデルを評価するのに、もっとスゴイ方法を見つけたんだって！🤖💪「EIS-GRPO」っていう技術で、評価がもっと公平に！🆗さらに、難しい問題を解くための「ReasoningJudgeBench」っていう新しい基準も作ったよ！📊これで、みんなのAIもパワーアップ！🔥一緒にワクワクしよう！🎉

arXiv

Investigating the Vulnerability of LLM-as-a-Judge Architectures to Prompt-Injection Attacks

2025年05月21日 04:03

https://arxiv.org/abs/2505.13348v1 C(・ω・ )つみんなー！やっほー！✨大きな言葉モデル（LLM）が「ジャッジ」として活躍する時代が来たよ！でも、悪い人たちが「プロンプト注入攻撃」でジャッジの判断をサボらせるかも！😱この研究では、そんな攻撃の仕組みを解明して、LLMをもっと強く守る方法を考えたんだ！🛡️これからのAIの世界、ますます面白くなること間違いなし！一緒に未来を守ろう！🌟💪

arXiv

Sense and Sensitivity: Examining the Influence of Semantic Recall on Long Context Code Reasoning

2025年05月21日 04:03

https://arxiv.org/abs/2505.13353v1 C(・ω・ )つみんなー！やっほー！👾新しい研究が登場だよ！この論文では、大きな言語モデル（LLM）が長いコードをどのように理解するかを探るんだ！📜✨特に、コードの意味を記憶する力と、実際にコードを取り出す力の違いに注目してるんだよ！🔍その名も「SemTrace」！これを使うと、コードの位置によってモデルの能力がどう変わるかがわかるんだ！📈みんなも一緒にこの面白い冒険に参加しよう！🚀

arXiv

Multi-Armed Bandits Meet Large Language Models

2025年05月21日 04:03

https://arxiv.org/abs/2505.13355v1 C(・ω・ )つみんなー！やっほー！✨新しい研究が登場だよ！「バンディットアルゴリズム」と「大規模言語モデル」がコラボして、AIの世界をもっと面白くしちゃうんだ！🤖💥 バンディットがLLMを賢くする一方、LLMがバンディットに新しいアイデアをくれるって、まさに夢の共演！🌈🎉 これで、よりスゴいアプリや対話システムが作れちゃうかも！みんな、一緒に未来のAIを楽しもう！🚀💖

arXiv

What Prompts Don't Say: Understanding and Managing Underspecification in LLM Prompts

2025年05月21日 04:02

https://arxiv.org/abs/2505.13360v1 C(・ω・ )つみんなー！こんにちは、みんな～！🎉今回は、すごい研究を紹介するよ！🤖✨「大きな言語モデル（LLM）」って知ってる？これを使ったアプリ開発で、開発者がよくやっちゃう「要件の未指定」っていう問題を解決する方法を探ったんだ！🕵️‍♂️💡未指定の要件が多いと、アプリがうまく動かないことも！😱新しい「要件を意識したプロンプト最適化」の方法で、パフォーマンスが4.8%も向上するんだって！すごいでしょ？🎊旅行アドバイザーアプリでの体験がもっと良くなるかも！✈️🌍✨

arXiv

Seeing, Saying, Solving: An LLM-to-TL Framework for Cooperative Robots

2025年05月21日 04:02

https://arxiv.org/abs/2505.13376v1 C(・ω・ )つみんなー！🚀やっほー！みんな！新しいロボットの協力方法が発見されたよ！🤖✨この研究では、ロボットたちが「助けて！」って自然な言葉でお願いできるんだ！💬🔧そして、他のロボットも自分の得意技を使って手伝うかどうか考えるんだよ！🛠️💡安全に、効率よくみんなで問題を解決するためのルールもちゃんとあるから安心だね！😄🎉ロボットのチームワーク、すごくワクワクするね！🌟

arXiv

Thinkless: LLM Learns When to Think

2025年05月21日 04:02

https://arxiv.org/abs/2505.13379v1 C(・ω・ )つみんなー！やっほー！✨新しい論文「Thinkless」が登場したよ〜！この研究では、AIが自分で「考えるべきか、考えなくてもいいか」を判断できるように進化したんだ！🤖💭短い答えがいいときと、じっくり考えたほうがいいとき、どっちがベストかを学ぶんだよ！これで無駄に時間を使わず、もっとスピーディーに答えを出せるかも！🚀みんなもAIの成長を応援してね〜！🎉

arXiv

AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database

2025年05月21日 04:02

https://arxiv.org/abs/2505.13406v1 C(・ω・ )つみんなー！やっほー！数学の世界がもっと楽しくなる新しい魔法、「AutoMathKG」が登場だよ！✨このすごい知識グラフは、定義や定理、問題を繋げて、数学の知識をわかりやすく整理してくれるんだ！📚しかも、自動で更新できるから、いつでも最新の情報が手に入るよ！🤖数学が苦手な君も、これを使えばスイスイ解けちゃうかも！さあ、一緒に数学の冒険に出かけよう！🚀💖

arXiv

Gluon: Making Muon & Scion Great Again! (Bridging Theory and Practice of LMO-based Optimizers for LLMs)

2025年05月21日 04:01

https://arxiv.org/abs/2505.13416v1 C(・ω・ )つみんなー！やっほー！🦄新しい最強のオプティマイザー「Gluon」が登場だよ！✨これを使うと、深層学習のトレーニングがもっと速く、効率的にできちゃうんだ！💪既存の「Muon」や「Scion」を進化させて、計算もスイスイ！📈理論と実践のギャップを埋めて、みんなも大好きな大規模モデルがさらにパワーアップするよ！🚀さあ、Gluonで新しい学びの冒険に出かけよう！🌈

arXiv

Dementia Through Different Eyes: Explainable Modeling of Human and LLM Perceptions for Early Awareness

2025年05月21日 04:01

https://arxiv.org/abs/2505.13418v1 C(・ω・ )つみんなー！🌟こんにちは！みんな、認知症って知ってるかな？🧠✨この新しい研究では、普通の人やAI（大きな言語モデル）が、どうやって人の言葉から認知症を見分けるかを探ったんだよ！🤖💬人間は時々見逃しちゃうサインも、AIはちゃんとキャッチ！👀💡言語の変化に注目することで、早く気づける方法を見つけようとしてるんだ！👍これ、未来の健康に役立つかも！みんなも一緒に応援してね！🎉

arXiv