AWS Big DataBlog Interactive Analysis of Genomic Datasets UsingAmazon Athena Aaron Friedman is a Healthcare and Life Sciences Solutions Architect withAmazon Web Services The genomics industry is in the midst of a data explosion. Due to the rapid drop in the cost to sequence genomes, genomics is now central to many medical advances. When your genome is sequenced and analyzed,raw sequencing file


AWS Big DataBlog Submitting User Applications with spark-submit Francisco Oliveira is a consultant withAWS Professional Services Customers starting their big data journey often ask forguidelines on how to submit user applications to Spark running onAmazonEMR. For example, customers ask forguidelines on how to size memory and compute resources available to their applications and the best reso
Facebook often uses analytics for data-driven decision making. Over the past few years, user and product growth has pushed our analytics engines to operate on data sets in the tens of terabytes for a single query. Some of our batch analytics is executed through the venerable Hive platform (contributed to Apache Hive by Facebook in 2009) and Corona, our customMapReduce implementation. Facebook has

Apache SparkとAmazon DSSTNEを使った、Amazon規模のレコメンデーション生成Amazonのパーソナライゼーションでは、お客様毎の製品レコメンデーションを生成するためにニューラルネットワークを使っています。Amazonの製品カタログは、あるお客様が購入した製品の数に比較して非常に巨大なので、データセットは極端に疎になってしまいます。そして、お客様の数と製品の数は何億にものぼるため、我々のニューラルネットワークのモデルは複数のGPUで分散しなければ、空間や時間の制約を満たすことができません。 そのため、GPU上で動作するDSSTNE (the DeepScalable Sparse Tensor Neural Engine)を開発しオープンソースにしました。我々はDSSTNEを使ってニューラルネットワークを学習しレコメンデーションを生成していて、ECのウェブサイト
[2016/07/04追記] 好評につき80名から100名に増枠しました! DMM.com ラボ、サイバーエージェント、Clouderaの最前線のエンジニアが各自の視点から発表!SparkやPythonを使い、ビッグデータを活用したData Science、機械学習を活かしたプロダクトの活用事例や、ツール、アーキテクチャを知りたい人にお勧めのミートアップを開催決定! 対象 Sparkを使っていて、データを活用したプロダクトを作りたい人機械学習やデータ分析はしているが、Sparkはまだ使ったことのない人Pythonを使ってビッグデータの分析・活用がしたい人 などの方々に楽しんでもらえる発表を予定しています。 概要 SparkやPythonを用いてビッグデータ分析を行ったり、機械学習を活かしたプロダクトの開発についいての知見を共有する会です。大量のデータに対してどういうアーキテクチャを用い

AWS Big DataBlog Analyze Your Data onAmazon DynamoDB with Apache Spark Manjeet Chayel is a Solutions Architect withAWS Every day, tons of customer data is generated, such as websitelogs, gaming data, advertising data, and streaming videos. Many companies capture this information asit’s generated and processit in real time to understand their customers.Amazon DynamoDB is a fast and flexible
リクルートの高柳さんと共同で『Sparkによる実践データ解析』という本の付録を執筆しました。 Sparkによる実践データ解析 ―大規模データのための機械学習事例集 作者: Sandy Ryza,Uri Laserson,Sean Owen,Josh Wills,石川有,Sky株式会社玉川竜司出版社/メーカー: オライリージャパン発売日: 2016/01/23メディア: 大型本この商品を含むブログ (4件) を見る 執筆した付録の内容は「SparkRについて」です。 SparkR は、R 言語から Spark を使うためのパッケージで、公式サポートされています。 SparkR については、以前 Spark Meetup で発表しました。 Spark Meetup 2015 で SparkR について発表しました #sparkjp - ほくそ笑む このときはまだ、機能として不十分な点が目立ちま

SparkR (R on Spark) Overview SparkDataFrame Starting Up: SparkSession Starting Up from RStudioCreating SparkDataFrames From local data frames From Data Sources From Hive tables SparkDataFrame Operations Selecting rows, columns Grouping, Aggregation Operating on Columns Applying User-Defined Function Run a given function on a large dataset using dapply or dapplyCollect dapply dapplyCollect Run a g
AWS Week in Review – AWS Documentation Updates,Amazon EventBridge is Faster, and More – May 22,2023 Here are yourAWS updates from the previous 7 days. Last week I was in Turin,Italy for CloudConf, a conference I’ve had the pleasure to participate in for the last 10 years.AWS Hero Anahit Pogosova was also there sharing a few serverless tips in front of a full house. Here’s a picture I […] Amaz
ADAM is a library and commandline tool that enables the use of Apache Spark to parallelize genomic data analysis across cluster/cloud computing environments. ADAM uses a set of schemas to describe genomic sequences, reads, variants/genotypes, and features, and can be used with data in legacy genomic file formats such as SAM/BAM/CRAM, BED/GFF3/GTF, and VCF, as well as data stored in the columnar A
1リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く